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my +H 
内 容 所 要 
《深度 学 习 》 由 全 球 知名 的 三 位 专家 Ian Goodfellow, Yoshua Bengio 和 
Aaron Courville 反 与， 是 深度 学 习 领 域 页 基 性 的 经 典 教材 。 全 书 的 内 容 
包括 3 个 部 分 : 第 1 部 分 介绍 基本 的 数学 工具 和 机 需 学 习 的 概念 ， 它 们 是 
深度 学 习 的 预备 知识 ; 第 2 部 分 系统 深入 地 讲解 现今 已 成 熟 的 深度 学 习 
方法 和 技术 ; 第 3 部 分 讨论 某 些 具 有 前 脆性 的 方 回 和 想法 ， 它 们 被 公认 
为 古 深度 学 习 未 来 的 研究 重点 。 
《深度 学 习 》 适 合 各 类 读者 阅读 ， 包 括 相 关 专 业 的 大 学 生 或 研究 生 ， 以 


及 不 具有 机 楷 学 习 或 统计 到 景 、 但 是 想 要 快速 补充 深 展 学 习 知 识 ， 以 便 
在 实际 产品 或 平台 中 应 用 的 软件 工程 师 。 


作者 简介 


Ian Goodfellow, AKAT] (Google) 的 研究 科学 家 ，2014 年 蒙特 利 尔 


KEILA se J AT FE I OK BORE] Ee, RIFE AE 
成 模型 以 及 机 器 学 习 的 安全 和 隐私 。Ian Goodfellow 在 研究 对 抗 样本 方 
面 是 一 位 有 影 啊 力 的 早期 研究 者 ， 他 发 明了 生成 式 对 抗 网 络 ， 在 深 太 学 
习 领 域 页 献 早 越 。 


Yoshua ”Bengio， 脓 符 利 尔 大 学 计算 机 科学 与 运筹 学 系 “DIRO) 的 教 
授 ， 蒙 特 利 尔 学 习 算 法 研究 所 (MILA)〉 的 负责 人 ，CIFAR 项 目的 共同 
负责 人 ， 加 拿 大 统计 和 学习 算法 研究 主席 。Yoshua Bengio 的 主要 研究 目标 
是 了 解 产 生 智力 的 学 习 原 则 。 他 还 教授 “机 器 学 习 ” 研 究 生 课程 
(IFT6266) ， 并 培养 了 一 大 批 研 究 生 和 博士 后 。 


Aaron Courville， 院 特 利 尔 大 学 计算 机 科学 与 运筹 学 系 的 助理 教授 ， 也 
是 LISA 实 验 军 的 成 员 。 上 目前 他 的 研究 兴趣 集中 在 发 展 深度 学 习 模 型 和 
方法 ， 特 别 是 开发 概 认 模型 和 新 闲 的 推断 方法 。Aaron Courville 主 要 专 
注 于 计算 机 视觉 应 用 ， 在 其 他 领域 ， 如 目 然 语言 处 理 、 首 频 信 写 人 处理、 
语 首 理解 和 其 他 AI 相 关 任 务 方面 也 有 所 研究 。 


FASC hii EE BC His] JT 
张志华 ， 北 京 大 学 数学 科学 学 院 统计 学 教授 ， 北 京 大 学 大 数据 研究 中 心 


和 北 系 大 数据 研 各 院 数 据 科 学 教授 ， 主 要 从 事 机 融 学 习 和 应 用 统计 学 的 
教学 与 研究 工作 。 


Pe fa JP 


赵 申 剑 ， 上 海 交 通 大 学 计算 机 系 人 硕士 研究 生 ， 研 究 方 回 为 数值 优化 和 自 
然 语言 处 理 。 


柳 或 如 ， 上 海区 通 大 学 计算 机 系 博士 研究 生 ， 研 究 方 同 为 数值 优化 和 强 
化 学 习 。 


人 符 天 凡 ， 上 海区 通 大 学 计算 机 系 便士 研究 生 ， 研 客 方 向 为 贝 叶 斯 推 闭 。 


李 凯 ， 上 海 交通 大 学 计算 机 系 博士 研究 生 ， 研 究 方向 为 博弈 论 和 强化 学 
J 。 
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位 共同 作者 是 一 个 老 中 育 三 代 绪 合 的 整体 ， 既 有 深度 学 习 领 域 的 页 基 
人 ， 也 有 处 于 研 客 生涯 中 期 的 领域 中 坚 ， 更 有 领域 里 近年 涌现 的 新 星 。 
所 以 ， 本 书 的 结构 行文 很 好 地 考虑 到 了 处 于 研究 生涯 各 个 不 同 阶段 的 学 
生 和 研究 人 员 的 需求 ， 十 一 本 非常 好 的 关于 深度 学 习 的 教科 书 。 


深度 学 习 近 年 来 在 学 术 界 和 产业 界 都 取得 了 极 大 的 成 功 ， 但 城 如 本 书 作 
者 所 说 ， 深 度 学 习 旦 创建 人 工 镶 能 系统 的 一 个 重要 的 方法 ， 但 不 是 全 部 
的 方法 。 期 望 在 人 工 乔 能 领域 有 所 作为 的 研究 人 员 ， 可 以 通过 本 书 充 分 
思考 深度 学 习 和 传统 机 器 学 习 、 人 工 乔 能 算法 的 联系 和 区 别 ， 共 同 推进 
本 领域 的 肥 展 。 





做 软 研 究 院 肯 遍 研究 员 华 刚 博士 


这 是 一 本 还 在 写作 阶段 束 补 开 肥 、 研 究 和 工程 人 员 极 大 天 注 有 的 深度 学 习 
教科 书 。 它 的 出 版 表明 我 们 进入 了 一 个 系统 化 理解 和 组 织 深 度 学 习 框 淋 
的 新 时 代 。 这 本 书 从 浅 入 深 介 绍 了 基础 数 竺 、 机 融和 学 习 经 验 ， 以 及 现 阶 
段 深度 学 习 的 理论 和 及 展 。 它 能 帮助 AI 撤 术 爱 好 着 和 从 业 人 员 在 三 位 专 
家 学 者 的 思维 市 领 下 全 方位 了 解 深 友 学 习 。 


一 一 腾讯 优 图 杰出 科学 家 、 香 港 中 文大 学 教授 页 佳 亚 


深度 学 习 代 表 了 我 们 这 个 时 代 的 人 工 和 留 能 搁 术 。 这 部 由 该 领域 好 权威 的 
几 位 学 者 Good-fellow、Bengio、Courville 撰 写 的 题 为 《深度 学 习 》 的 车 
作 ， 泗 六 了 深 夏 学 习 的 基础 与 应 用 、 理 论 与 实践 等 各 个 方面 的 主要 技 
术 ， 观 点 鲜明 ， 论 述 深 刻 ， 讲 解 评 尽 ， 内 容 元 实 。 相 信 这 是 每 一 位 天 注 
深 谋 学 习 人 士 的 必 读 书目 和 必 备 宝典 。 感 谢 张 志 华 教授 等 的 圣 勤 审 校 ， 
使 这 部 大 作 能 够 这 么 快 与 中 文 读者 见面 。 


-华为 诡 亚 方 丹 实验 军 主 任 ， 北 京 大 和 学、 南京 大 学 客座 教授 ，IEEE 
Fellow 李 航 


从 基础 前 馈 神 经 网 络 到 深度 生成 模型 ， 从 数学 模型 到 最 佳 实 践 ， 这 本 书 
黎 关 了 深度 学 习 的 各 个 方面 。《 深 度 学 习 》 古 当下 最 适合 的 入 门 书籍 ， 


强烈 推荐 给 此 领域 的 研究 者 和 从 业 人 员 。 
亚马逊 主任 科学 家 、Apache MXNet 发 起 人 之 一 李 沐 
出 目 三 位 深度 学 习 最 前 沿 权 威 学 者 的 教科 书 一 定 要 在 案 前 放 一 本 。 本 书 


的 第 二 部 分 是 精华 ， 对 深度 学 习 的 基本 拉 术 进行 了 深入 浅 出 的 狂 彩 曾 
述 。 








ResNet 作 者 之 一 、Face++ 首 席 科 学 家 孙 剑 


过 去 十 年 里 ， 深 度 学 习 的 广 沁 应 用 开创 了 人 工 智能 的 新 时 代 。 这 本 教材 
症 深 度 学 习 领 域 有 重要 影响 的 几 位 学 者 共 同 把 写 。 它 疗 曾 了 深度 学 习 的 
主要 方 同 ， 为 四 进入 该 领域 的 研究 人 员 、 工 程 师 以 及 初学 者 提供 了 一 个 
很 好 的 系统 性 教材 。 





香港 中 文大 学 信息 工程 系 主任 汤 晓 网 教授 


这 和 古 一 本 教科 书 ， 叉 不 只 是 一 本 教科 书 。 任 何 对 深度 学 习 感 兴趣 的 读 
者 ， 本 书 在 很 长 一 段 时 间 里 ， 都 将 是 你 能 获得 的 最 全 面 系统 的 资料 ， 以 
及 思考 并 真正 推进 次 度 学习 产 业 应 用 、 构 建 镶 能 化 社会 框架 的 绝 佳 理论 
起 后。 





rl 70 8 Ga A HECEO AS Ft 
VE FP 
AUM, EERE 


深度 学 习 这 个 术语 目 2006 年 被 正式 提出 后 ， 在 了 最近 10 年 得 到 了 巨大 有 有 

Feo EMEA THRE CAD 产生 了 革命 性 的 突破 ， 让 我 们 切实 地 领略 到 人 
工 智能 给 人 类 生活 带 来 改变 的 潜力 。2016 年 12 月 ，MIT 出 版 社 出 版 了 Ian 
Goodfellow, Yoshua Bengio 和 Aaron Courville 三 位 学 者 撰写 的 《Deep 
Learning) ~P. =(Wfea— AR n TALAMA «SIR 
RESIN ARH, ARES URS NERWEN. APEMH 

EY, ZH Wai RUB EER 


PEST aR, LARP aa A ae A a Se as, E 


IDERE FITER. QB AR RAR A EL TAR PS 
学 习 方 法 和 技术 。 第 3 部 分 讨论 茶 些 具有 前 上 脆性 的 方向 和 想法 ， 它 们 被 
公认 为 是 深度 学 习 示 来 的 研究 重点 。 因 此 ， 该 书 适 用 于 不 同 层次 的 读 
者 。 我 本 人 在 阅读 该 书 时 受到 局 友 民 多 ， 大 有 但 荔 ， 并 采用 该 书 作 为 教 
TA FEAL RAE ESTA EE Od RAE o 


XE AR iTS SO BORAT BOBS» ET URRY SR 

AK. BE BGART VS, Aiii TG. FERRE. FE. WAE IIN 

WASET. PHERS S EEIRE Sd EN Ae, eb 

ANERER SAGAR, I ATS BIER TTR OT ER. A SA 
等 论述 尤为 透彻 而 精辟 。 


作者 在 书 中 写 到 :“ 人 工 智能 的 真正 挑战 在 于 解决 那些 对 人 来 说 很 容易 
执行 、 但 很 难 形式 化 摘 述 的 任务 ， 比 如 识别 人 们 所 说 的 话 或 图 像 中 的 
脸 。 对 于 这 些 问 题 ， 我 们 人 类 往往 可 以 和 任 二 和 党 轻 多 地 解决 "?。 为 了 应 对 
这 些 挑战 ， 他 们 提出 让 计算 机 从 经 验 中 学 习 ， 并 根据 层次 化 的 概念 体系 
来 理解 世界 ， 而 每 个 概念 通过 与 某 些 相对 简单 的 概念 之 间 的 关系 来 定 
义 。 由 此 ， 作 者 给 出 了 深度 学 习 的 定义 :“ 层 次 化 的 概念 让 计算 机 构建 
较 简 单 的 概念 来 学 习 复 洒 概 念 。 如 采 绘 制 出 表示 这 些 概念 如 何 建立 在 彼 
此 之 上 的 一 幅 图 ， 我 们 将 得 到 一 张 深 ”( 层 次 很 多 ) INA. Bik, RAII 
BRISA TT IE A ALR >) (deep learning) ”. 


作者 指出 : “一 般 认 为 ， 到 目前 为 止 深度 学 习 已 经 经 历 了 三 次 发 展 浪 
潮 : 20 世 纪 40 年 代 到 60 年 代 深 度 学 习 的 难 形 出 现在 控制 论 
(cybernetics) 中 ，20 世 纪 80 年 代 到 90 年 代 深 度 学 习 以 联结 主义 
Cconnectionism) 为 代表 ， 而 从 2006 年 开始 ， 以 深度 学 习 之 名 复兴 ”。 


谈 到 深度 学 习 与 脑 科 学 或 者 神经 科学 的 关系 ， 作 者 强调 : “如今 神 经 科 
TERS DFP EA EUS, SETAE TARA A AE HR 
村 大 脑 的 信息 作为 指导 去 使 用 它 。 要 获得 对 被 大 脑 实 际 使 用 算法 的 深刻 
理解 ， 我 们 需要 有 能 力 同 时 监测 (人 至少 是 ) 数 干 相连 神经 元 的 活动 。 我 
们 不 能 够 做 到 这 一 点 ， 所 以 我 们 甚至 连 大 脑 最 人 简单、 最 深入 研究 的 部 分 
邵 还 还 远 没 有 理解 "。 值 得 注意 的 是 ， 我 国有 些 专 家 热 囊 倡导 人 工 乔 能 
与 脑 科 学 或 认 知 学 科 的 交叉 研究 ， 推 动 国家 在 所 请 的 “类 脑 久 能 ”等 领域 
投入 大 量 资 源 。 且 不论 我 国 古 任 真有 同时 精通 入 工 入 能 和 脑 科 学 或 认 知 
心理 学 的 学 者 ， 全 少 对 交叉 领域 ， 我 们 都 应 该 怀 看 务实 、 理 性 的 求 是 态 


RE. MEA UI, EN A-A Ay Ree IK A LS He RRR PA EN, 
THA 2 XARA TL A o 


作者 进一步 指出 : “OR AST LEAS E HB Wiad RSS" A SORTA PE EN 
硝 ， 深 度 学 习 研 究 着 比 其 他 机 复学 习 领 域 “ 如 核 方 法 或 由 时 期 统计 ) 的 
研究 者 更 可 能 地 引用 大 脑 作为 参考 ， 但 大 家 个 应 设 认为 深度 学习 在 归 试 
模拟 大 脑 。 现 代 深 度 学 习 从 许多 领域 获取 有 灵感 ， 特 列 是 应 用 数学 的 基本 
内 容 如 线性 代数 、 概 率 论 、 信 息 论 和 数值 优化 。 尽 管 一 些 深度 学 习 的 研 
完 人 员 引 用 神经 科学 作为 午 要 的 姑 感 来 源 ， 然 而 其 他 学 者 完全 个 天 心神 
经 科学 *”。 的 确 ， 对 于 广大 育 年 学 者 和 一 线 的 工程 师 来 说 ， 我 们 是 可 以 
完全 不 用 因为 不 情 神 经 〈 或 脑 ) 科学 而 对 深度 和 学习、 人工 镶 能 足 踢 不 
有 前。 数学 模型 、 计 算 方 法 和 应 用 驱动 才 古 我 们 研究 人 工 乔 能 的 可 行 之 
E. RES OMA LAE eA 2 Ds ETAT, Me ae FRAN 
脚下 的 技术 。 我 们 茂 然 可 以 从 哲学 层面 或 角度 来 欣 黄 科学 与 扩 术 ， 但 过 
度 地 从 敬 学 层面 来 研 各 科学 问题 只 会 导致 一 些 空 洞 的 名 词 。 


关于 人 工 神 经 网 络 在 20 世 纪 90 年 代 中 期 的 豪 洲 ， 作 者 分 析 到 :“ 基 于 神 
经 网 络 和 其 他 AI 技术 的 创业 公司 开始 寻求 投资 ， 其 做 法 野心 劲 劲 但 不 切 
实际 。 当 AI 研究 不 能 实现 这 些 不 合理 的 期 望 时 ， 投 资 者 感到 失望 。 同 

时 ， 机 右 学 习 的 其 他 领域 取得 了 进步 。 比 如 ， 核 方法 和 图 模型 都 在 很 多 
重要 任务 上 实现 了 很 好 的 效果 。 这 两 个 因素 导致 了 神经 网 络 热潮 的 第 二 
次 衰退 ， 并 一 直 持 续 到 2007 年 >。 “HMR, HCWAR”. KPH 
训 也 同样 值得 当今 基于 深度 学 习 的 创业 界 、 工 业界 和 学 术 界 等 警醒 。 


我 非 第 采 注 获得 人 民 邮 电 出 版 社 王峰 松 完 生 的 近 请 来 负 贡 该 书 的 中 文 翻 
译 。 我 是 2016 年 7 月 收 到 王 完 生 的 拯 请 ， 但 那 时 我 正 忙 于 找 工 作 ， 无 上 暇 
顾及 。 然 而 ， 当 我 和 我 的 学 生 讨 论 翻 详 事 宜 时 ， 他 们 一 致 认为 这 是 一 件 
非常 有 意义 的 事情 ， 表 达 愿 蔓 来 承担 。 详 稳 是 由 我 的 四 位 学 生 赵 申 证、 
黎 或 君 、 符 天 凡 和 李 凯 独立 完成 的 。 申 剑 和 天 凡是 二 年 级 的 硕士 生 ， 而 
李 册 和 或 看 则 分 别 是 二 年 级 和 三 年 级 的 下 博 生 。 虽 然 他 们 在 机 夫 学 习 领 
域 部 还 古刹 人 ， 其 知识 结构 还 不 全 面 ， 但 是 他 们 热情 局 涨 、 勤 于 学 习 、 
工作 专注 、 执 行 力 极 强 。 他 们 通过 重 现 书 中 的 算法 代码 和 阅读 相关 文献 
来 加 强 理 解 ， 在 不 到 三 个 月 的 时 间 残 拿 出 了 详 兰 的 初 稳 ， 之 后 义 经 过 目 
校对 、 有 区 又 校 对 等 环 市 力图 使 详 得 你 持 正 确 性 和 一 怪 性 。 他 们 目 我 协 

调 、 主 动 扰 贡 、 相 互 襄 让 ， 他 们 的 贡 任 心 和 独立 工作 能 力 让 我 倍 感 欣 

大， 因而 得 以 从 容 。 


FA AT Ce EF CB EH I a AR, PEC he A EEE 
AE, RIJEI SED AS RE TAERA EE EN SEA Ao Al, 
我 们 踢 列 地 建议 有 条 件 的 读者 去 阅读 英文 厌 兰 ， 也 非常 期 竺 大 家 继续 指 
正 详 兰 ， 以 便 今 后 进一步 修订 完善 。 我 妃 请 大 家 多 给 予 4 位 详 着 WG 
励 。 请 把 你 们 对 详 兰 的 批评 留 给 我 ， 这 和 是 我 作为 他 们 的 寻 师 必须 要 承担 
Ho BERI EIER JE EE IEE o 


ZIEWERS, BTR EE E AA EGitHub E, AAMI KE 
AINE GRE Eta. SABEM, A EAMA DAA SI KEE 
有 建设 性 的 修改 意见 ， 其 中 有 20 多 位 热心 读者 直接 帮助 润色 校对 《〈 详 见 
中 文 版 致谢 名 单 ) 。 可 以 说 ， 这 本 详 闭 是 大 家 共同 努力 的 结晶 。 这 些 读 
者 来 日 一 线 的 工程 师 和 在 校 的 学 生 ， 从 中 我 领略 到 了 他 们 对 深度 学 习 和 和 
Har F AMR ER. EERE REZA SEIF SEMER 
HAET MDI He HES ATS HE ACHES AY BR)» AE, REDE E h 
WAR AT a ne AR ap ET Ea eae MEA Ie LEEK Fs] A 
E EERE I bt Ft PG J 


江山 代 有 人 才 出 ， 各 领 风 又 数 十 年 ! 
张志华 代笔 


2017 年 5 月 12 日 于 北大 静 园 六 院 


中 文 版 致谢 


首先 ， 我 们 要 感谢 原 书 作者 在 本 书 翻 详 时 给 予 我 们 的 大 为 帮助 。 特 别 
是 ， 原 书 作 者 和 我 们 分 于 了 书 中 的 原 图 和 参考 文献 库 ， 这 极 大 节省 了 我 
们 的 时 间 和 精力 。 


本 书 涉 及 的 内 容 博大 且 思 想 深 刻 ， 如 果 没 有 众多 同学 和 网 友 的 帮助 ， 我 
们 不 可 能 顺利 完成 翻 详 。 


我 们 才 下 学 浅 而 党 此 重任 ， 深 知 目 吴 水 平 难以 将 本 书 翻 译 得 很 准确 。 因 
此 我 们 完成 初稿 后 ， 将 书稿 公开 于 GitHub， 及 早 接受 网 友 的 批评 和 建 
议 。 以 下 网 友 为 本 书 的 翻译 初 入 提供 了 很 多 及 时 的 反馈 和 社员 的 修改 总 
JL: @tttwwy. @tankeco. @fairmiracle. @GageGao, 


@huangpingchun. @MaHongP. @acgtyrant. @yanhuibin315, 
@Buttonwood, @titicacafz. @weijy026a, @RuiZhang1993, 
@zymiboxpay. @xingkongliang. @oisc. @tielei. @yuduowu, 
@Qingmu, @HC-2016, @xiaomingabc, @bengordai., @Bojian, 
@JoyFYan, @minoriwww, @khty2000. @gump88. @Wzdx3578, 
@PassStory. @imwebson, @wlbksy. @roachsinai, @Elvinczp, 
@endymecy, @9578577. @linzhp. @cnscottzheng., @germany-zhu, 
@zhangyafeikimi, @showgood163. @kanggf. @NeutronT, 
@badpoem., @kkpoker, @Seaball. @wheaio,. @angrymidiao, 
@ZhiweiY ang. @corenel. @zhaoyu611. @SiriusXDJ. @dfcv24, 
@EmisXXY. @FlyingFire. @vsooda, @friskit-china, @poerin, 
@ninesungian, @JiaqiYao. @Sofring. @wenlei. @wizyoung, 
@imageslr. @indam, @XuLYC., @zhougingping. @freedomRen, 
@runPenguin#il @piantou. 


在 此 期 间 ， 我 们 4 位 译 者 天 次 进行 了 校对 并 且 相 互 之 间 也 校对 了 一 人 如。 
然而 仅仅 通过 我 们 的 校对 ， 实 在 难以 友 现 翻 详 中 存在 的 所 有 问题 。 


此 ， 


我 们 邀请 一 些 同 学 和 网 友 帮 助 我们 校对 。 经 过 他 们 的 校对 ， 本 书 有 的 


翻 详 质 量 得 到 了 极 大 的 提升 。 在 此 我 们 一 一 列 出 ， 以 表示 我 们 由 囊 有 的 感 


谢 ! 


第 1 章 (引言 ) : HW, FITA, PERN SE AINeutronT pic [ AE, 
并 对 很 多 语句 提出 了 不 少 修 改建 议 。 林 中 鹏 进行 了 校对 ， 他 提出 了 
很 多 独到 的 修改 建议 。 

第 2 革 (线性 代数 ) : WI AA Reese SAE, FEMEA. 
李 奋 是 进行 了 校对 ， 提 出 了 很 多 细心 的 建议 。 兰 武 轩 阅读 并 调 色 了 
部 分 内 容 ， 提 升 了 译文 准确 性 和 可 谍 性 。 

第 3 章 〈 概 率 与 信息 论 ) : F] AHE RE, FAAEA. Be 
EO 并 修改 了 很 多 中 文 用 词 ， 使 翻译 更 加 准 
HHI o 

PAE (QUA SH) : KERRE SAE, FPO AE eH S 
一 些 修改 建议 。 张 源源 进行 了 校对 ， 并 指出 了 原文 可 能 存在 的 问 
al, SERS TPH o 

5m Ala Sea : SSA aie fA, FEO 
A). ERMER MEIT SRO. ANWR BOR, BEHEADED 
质量 次 不 开 这 4 位 的 页 献 。 


BOR CREAM) : AEIR PRP MEA SK obese S ASE, 
并 提出 修改 意见 。 

第 7 章 〈 深 上 度 学 习 中 的 正则 化 ，: 周 相 村 进行 了 非常 细心 的 校对 ， 
指出 了 大 量 问 题 ， 令 翻译 更 加 准确 。 

第 8 草 〈 深 度 模 型 中 的 优化 ) : 房 晓 衬 和 丘 翔 阅 斌 了 本 章 。 黄 平 春 
进行 了 校对 ， 他 提出 的 很 多 建议 让 行文 更 加 流畅 易 懂 。 

BIR CERNA) : RAAB ie SA, FRA. J 
记 饮 进行 了 非常 仔细 的 校对 ， 并 指出 很 多 翻 详 问 题 。 

第 10 革 (序列 建 模 : 循环 和 递归 网 络 ) : 刘畅 阅读 了 本 章 。 赵 雨 提 
供 了 详细 的 校对 建议 ， 尹 瑞 请 根据 他 的 翻译 版 本 ， 给 我 们 的 厂 本 提 
出 了 很 多 建议 。 虽 然 仍 存在 一 些 分 卜 ， 但 我 们 两 个 版 本 的 整合 ， 让 
翻 详 质量 提升 很 多 。 

B12 OH) : 潘 雨 根 进行 了 校对 。 在 他 的 校对 之 前 ， 本 章 赔 读 
起 来 比较 困难 。 他 提供 的 修改 建议 ， 不 仪 提 高 了 行文 流畅 有 度 ， 还 提 
升 了 译文 的 准确 上 度 。 

第 13 草 《线性 因 了 于 模型 ) : BEATE SAS, (EOE. ath 
ROY SAE, JE ARETE. 

B14 (Bases) : ENAMA rei SRO. SN ETT S 
语言 的 流畅 度 ， 黄 平 春 纠 正 了 不 少 错误 ， 提 高 了 准确 性 。 

。 第 15 章 (表示 学 习 ) : cnscottzheng 阅 读 了 本 章 ， 并 修改 语句 。 

e R17% REFRIN) : 张 远航 提供 了 非 第 细致 的 校对 ， 后 续 又 
校对 了 一 过 ， 使 诺 文 质量 大 大 提升 。 

第 18 草 《直面 配 分 国 数 ) : RKT SRA, terr T EEE 
和 可 读 性 。 

第 19 草 〈 近 似 推 新 ) : 芮 洗车 、 张 远航 和 张 源 兰 进 行 了 校对 。 本 章 
E E EEE E E 
Z o 


所 有 校对 的 修改 建议 都 保存 在 GitHub 上 ， 再 次 感谢 以 上 同学 和 网 友 的 付 
出 。 经 过 这 5 个 多 月 的 修改 ， 初 稳 慢 慢 变 成 了 最 终 提 交 给 出 版 社 的 入 
件 。 斥 官 还 有 很 多 问题 ， 但 大 部 分 内 容 是 可 读 的 ， 并 且 古 准确 的 。 当 然 
目前 的 详 文 仍 存 在 一 些 没 有 及 时 发 现 的 问题 ， 因 此 修订 工作 也 将 持续 更 
新 ， 不 断 修 改 。 我 们 非常 希望 读者 能 到 GitHub 近 建议， 并 且 非 党 欢迎 ， 
TEZAMEN, HEIRE EHH 


此 外 ， 我 们 还 要 感 调 魏 太 云 学 长 ， 他 帮助 我 们 与 出 版 社 沟 退 交流 ， 并 给 


子 了 我 们 很 多 排版 上 的 指导 。 
最 后 ， 感 谢 我 们 的 导师 张志华 教授 ， 没 有 老师 的 文 持 ， 我 们 难以 完成 翻 


FEC BU 


如 来 没有 他 人 的 页 献 ， 这 本 书 将 不 可 能 完成 。 我 们 感谢 为 本 书 提出 建议 
和 帮助 组 织 内 容 结构 的 人 : Guillaume Alain、Kyunghyun Cho, Çağlar 
Gülçehre, David Krueger. Hugo Larochelle, Razvan Pascanu 和 Thomas 
Rohée. 


我 们 感谢 为 本 书 内 容 提 供 反馈 的 人 。 其 中 一 些 人 对 许多 章 都 给 出 了 建 
i: Martin Abadi, Guillaume Alain, Ion Androutsopoulos. Fred 
Bertsch, Olexa Bilaniuk, Ufuk Can Biçici, Matko Bošnjak, John 
Boersma, Greg Brockman, Alexandre de Brébisson, Pierre Luc Carriers 
Sarath Chandar, Pawel Chilinski, Mark Daoust, Oleg Dashevskii, 
Laurent Dinh, Stephan Dreseitl、 Jim Fan, Miao Fan, Meire Fortunato, 
Frédéric Francis. Nando de Freitas. Çağlar Gülçehre, Jurgen Van Gael, 
Javier Alonso García, Jonathan Hunt. Gopi  Jeyaram, Chingiz 
Kabytayev. Lukasz Kaiser, Varun Kanade, Asifullah Khan, Akiel 
Khan, John King, Diederik P. Kingma, Yann Le-Cun、 Rudolf 
Mathey. Matías Mattamala, Abhinav Maurya, Kevin Murphy, Oleg 
Mürk, Roman Novak, Augustus Q. Odena, Simon Pavlik, Karl 
Pichotta, Eddie Pierce. Kari Pulli, Roussel Rahman, Tapani Raiko、 
Anurag Ranjan, Johannes Roith, Mihaela Rosca, Halis Sak. Cesar 
Salgado. Grigory Sapunov. Yoshinori Sasaki, Mike Schuster, Julian 
Serban, Nir Shabat, Ken Shirriff. Andre Simpelo, Scott Stanley. David 
Sussillo. Ilya Sutskever. Carles Gelada Saez. Graham Taylor. Valentin 
Tolmer, Massimiliano Tomassoli, An Tran, Shubhendu Trivedi, Alexey 
Umnov、 Vincent Vanhoucke, Marco Visentini-Scarzanella, Martin Vita, 
David Warde-Farley. Dustin Webb. Kelvin Xu. Wei Xue, Ke Yang. Li 
Yao. Zygmunt Zaje c 和 Ozan Çağlayan- 


我 们 也 要 感谢 对 单个 草 市 提供 有 效 反 馈 的 人 。 


数学 从 与 : Zhang Yuanhang. 

1 (5/8) : Yusuf Akgul, Sebastien Bratieres. Samira 
Ebrahimi, Charlie Gorichanaz. Brendan Loudermilk, Eric Morris, 
Cosmin Parvulescu#! Alfredo Solano. 

第 2 章 〈 线 性 代数 ) : Amjad  Almahairi. Nikola Banić, Kevin 
Bennett. Philippe Cas-tonguay、 Oscar Chang. Eric Fosler-Lussier, 
Andrey Khalyavin、 Sergey Oreshkov, Istvan Petras. Dennis 
Prangle., Thomas Rohée, Gitanjali Gulve Sehgal. Colby Toland. 
Alessan-dro Vitale 和 Bob Welland. 

第 3 章 〈 概 率 与 信息 论 ) : John Philip Anderson, Kai Arulkumaran、 
Vincent Dumoulin, Rui Fa, Stephan Gouws, Artem Oboturov、Antti 
Rasmus, Alexey Surkov Volker Tresp. 

4 (ŽUB) : Tran Lam AnIan Fischer 和 Hu Yuhuang. 

第 5 章 〈 机 器 学 习 基 础 ) : Dzmitry Bahdanau、Justin Domingue. 
Nikhil Garg, Makoto Otsuka, Bob Pepin, Philip Popien、Emmanuel 
Rayner. Peter Shepard. Kee-Bong Song. Zheng Sun 和 Andy Wu. 
第 6 章 ( 深 度 前 馈 网 络 ) : Uriel Berdugo, Fabrizio Bottarel, 
Elizabeth Burl, Ishan Durugkar、 Jeff Hlywa、 Jong Wook Kim, 
David Krueger} Aditya Kumar Praharaj- 

第 7 章 〈 深 度 学 习 中 的 正则 化 ) : Morten Kolbek, Kshitij Lauria. 
Inkyu Lee. Sunil Mohan, Hai Phong Phan 和 Joshua Salisbury . 

第 8 草 ( 深 度 模 型 中 的 优化 ): Marcel Ackermann、 Peter 
Armitage. Rowel Atienza, Andrew Brock, Tegan Maharaj. James 
Martens. Kashif Rasul, Klaus Strobl 和 Nicholas Turner. 

HoR CERY) : Martin Arjovsky. Eugene Brevdo. Konstantin 
Divilov、 Eric Jensen. Mehdi Mirza, Alex Paino, Marjorie Sayers 
Ryan Stout 和 Wentao Wu. 

10E CPF She: 循环 和 递归 网 络 ) : Gökçen Eraslan, Steven 
Hickson, Razvan Pascanu, Lorenzo von Ritter, Rui Rodrigues, 
Dmitriy Serdyuk、 Dongyu Shi 和 Kaiyu Yang. 

S11 (SEER AYE) : Daniel Beckstein. 

12% (OMH) : George Dabl, Vladimir Nekrasov 和 Ribana 
Roscher. 

P13% (REKTI) : Jayanth Koushik. 

P15% CRI?) : Kunal Ghosh. 

第 16 草 《深度 学 习 中 的 结构 化 概率 模型 ) : Minh Lê Anton 


Varfolom. 

5318 (AAC ez) : Sam Bowman. 

e 第 19 草 《近似 推 亲 ) : Yujia Bao- 

第 20 革 (深度 生成 模型 ) : Nicolas Chapados, Daniel Galvez, 
Wenming Ma, Fady Med-hat、 Shakir Mohamed 和 Grégoire 
Montavon. 

© 参考 文献 : Lukas Michelbacher 和 Leslie N. Smith. 


我 们 还 要 感谢 那些 允许 我 们 引用 他 们 的 出 版 物 中 的 图 片 、 数 据 的 人 。 我 
们 在 图 片 标题 的 文字 中 注 明了 他 们 的 页 献 。 


我 们 还 要 感谢 Lu Wang 为 我 们 写 了 pdf2htmlEX， 我 们 用 它 来 制作 这 本 书 
的 网 页 版 本 ，Lu Wang 还 帮助 我 们 改进 了 生成 的 HTML 的 质量 。 


我 们 还 要 感谢 Ian 的 妻子 Daniela Flori Goodfellow 在 Ian 的 写作 过 程 中 的 耐 
LLERA. 

我 们 还 要 感谢 Google Brain] sett y ZRA, MA mE anpe 16 aR 
大 量 时 间 写 作 本 书 并 接受 同行 的 反馈 和 指导 。 我 们 特别 感谢 Ian 的 前 任 
经 理 Greg Corrado 和 他 的 现任 经 理 Samy Bengio 对 这 项 工作 的 支持 。 最 后 
我 们 还 要 感谢 Geoffrey Hinton 在 写作 困难 时 的 或 励 。 


BLT ST 


下 面 简要 介绍 本 书 所 使 用 的 数学 符号 。 我 们 在 第 2-4 章 中 描述 大 多 数 数 
学 概念 ， 如 果 你 不 熟悉 任何 相应 的 数学 概念 ， 可 以 参考 对 应 的 章节 。 


数 和 数组 


标量 〈 整 数 或 实数 ) 
问 量 

Het Be 

张 星 

nf nF) HY Ae AEB 


: >> Q Q 


I 
e (i) 


diag(a) 
a 

a 

A 


A 
R 


{0, 1} 
{0, 1, 


A\B 
G 


Pag(x;) 


AEE FE 2 Se EB OC AY AA RE 

标准 基 向 量 [0,…,0,10…,0] ， 其 中 索引 i 处 值 为 
1 

对 角 方 阵 ， 其 中 对 角 元 素 由 a 给 定 

标量 随机 变量 

问 量 随机 变量 

算 阵 随机 变量 


集合 和 图 


集合 
实数 集 
包含 0 和 1 的 集合 


+, n} 包含 0 和 n 之 间 所 有 整数 的 集合 
la, b] 
(a, b] 


包含 a 和 b 的 实数 区 间 

不 包含 a 但 包含 b 的 实数 区 间 

AR, MENRES T A 48a FIR 
图 

AIG 中 x; PISTI A 


系 引 


a 的 第 i 个 元 系 ， 其 中 索引 从 1 开 
除了 第 i 个 元 素 ， a 的 所 有 元 素 
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BA 
Rol 
第 1 章 引言 


ete Ta Ae HA HA, ACH Ae a Ae eS ee ESL AS. FH A 
i SASS (Pygmalion) . REF Ht (Daedalus) PUARE HHEH 
(Hephaestus) 可 以 被 看 作 传说 中 的 友 明 家 ， 而 加 拉 带 亚 (Galatea) ~ 
塔 洛斯 (Talos) 和 潘多拉 (Pandora) 则 可 以 被 视 为 人 造 生命 (Ovid and 
Martin, 2004; Sparkes, 1996; Tandy, 1997) 。 


SARA Sa RET LY, Ze ES eh AL Be ES RE 
OX this 28 — BIRLA AF) (Lovelace, 1842) . Wl 
4, ALA pe (artificial intelligence, AI) 已 经 成 为 一 个 具有 众多 实际 
应 用 和 活跃 研究 读 题 的 领域 ， 并 且 正 在 茵 劲 及 展 。 我 们 期 望 通过 智能 软 
件 目 动 地 处 理 禹 规 画 动 、 理 解 语音 或 图 像 、 帮 助 医学 诊断 和 文 持 基础 科 
学 研究 。 


在 人 工 乔 能 的 早期 ， 那 些 对 人 类 乔 力 来 说 非常 困难 、 但 对 计算 机 来 说 相 
对 简单 的 问题 得 到 迅速 解决 ， 比 如 ， 那 些 可 以 通过 一 系列 形式 化 的 数学 
规则 来 描述 的 问题 。 人 工 智能 的 真正 挑 成 在 于 解决 那些 对 人 来 说 很 容易 
执行 、 但 很 难 形 却 化 拉 述 的 任务 ， 如 识别 人 们 所 说 的 话 或 图 像 中 的 脸 。 
对 于 这 些 问 题 ， 我 们 人 类 往往 可 以 任 信 生 先 轻 多 地 解决 。 


针对 这 些 比 较 耳 观 的 问题 ， 本 书 讨论 一 种 解决 方 采 。 访 方 宁 可 以 让 计算 
机 从 经 验 中 学 习 ， 并 根据 层次 化 的 概念 体系 来 理解 世界 ， 而 每 个 概念 则 
通过 与 东 些 相对 人 简单 的 概念 之 间 的 关系 来 定义 。 让 计算 机 从 经 验 获 取 知 
识 ， 可 以 避免 由 人 类 来 给 计算 机 形式 化 地 指定 它 需 要 的 所 有 知识 。 层 次 
化 的 概念 让 计算 机 构建 较 徐 单 的 概念 来 学 习 复 杂 概 念 。 如 末 绘 制 出 表示 
这 些 概念 如 何 建 立 在 彼此 之 上 的 图 ， 我 们 将 得 到 一 张 “ 深 ”( 层 次 很 多 ) 
的 图 。 基 于 这 个 原因 ， 我 们 称 这 种 方法 为 AI 深度 学 习 (deep 


learning) 。 


ANZ FHA AY BD A EERE APR AB SILAGE, Th ANE TT Ee 
机 具备 很 多 关于 世界 的 知识 。 例 如 ，IBM 的 深蓝 (Deep Blue) 国际 象棋 
系统 在 1997 年 击败 了 世界 冠军 Garry Kasparov (Hsu，2002) 。 显 然 国际 
象棋 是 一 个 非常 简单 的 领域 ， 因 为 它 仅 含有 64 个 位 置 并 只 能 以 严格 限制 
的 方式 移动 32 个 棋子 。 设 计 一 种 成 功 的 国际 象 械 脓 略 是 巨大 的 成 承 ， 但 
器 计 算 机 接 述 棋子 及 其 允许 的 走 法 并 不 是 这 一 挑战 的 困难 所 在 。 国 际 象 
棋 完 全 可 以 由 一 个 非 章 徐 短 的 、 完 全 形式 化 的 规则 列表 来 描述 ， 并 可 以 
容易 地 由 程序 员 事 和 爷 准 备 好 。 


具有 项 刺 意义 的 是 ， 抽 象 和 形式 化 的 任务 对 人 闫 而 言 是 最 困难 的 脑力 任 
务 之 一 ， 但 对 计算 机 而 诗 却 属于 最 容易 的 。 计 算 机 早 束 能 够 打败 入 类 最 
好 的 国际 象棋 选手 ， 但 耳 到 最 近 计 算 机 才 在 识别 对 象 或 语 首 任务 中 达到 
人 类 平均 水 平 。 一 个 人 的 日 剃 生 活 需 要 关于 世界 的 巨 量 知识 。 很 多 这 方 
面 的 知识 是 主观 的 、 和 下 观 的 ， 因 此 很 难过 过 形式 化 的 方式 表达 清 芍 。 计 


算 机 需要 获取 同样 的 知识 才能 表现 出 镶 能 。 人 工 镶 能 的 一 个 关键 挑 成 融 
是 如 何 将 这 些 非 形式 化 的 知识 传达 给 计算 机 。 


一 些 人 工 智能 项 目 力 求 将 关于 世界 的 知识 用 形式 化 的 语言 进行 便 编 码 
Chard-code) 。 计 算 机 可 以 使 用 人 远 辑 推理 规则 来 目 动 地 理解 这 些 形式 化 
语言 中 的 声明 。 这 就是 众所周知 的 人 工 乔 能 的 知识 库 (knowledge 
base) 方法 。 然 而 ， 这 些 项 目 最 终 痢 没有 取得 午 大 的 成 功 。 其 中 最 阁 名 
的 项 目 是 Cyc (Lenat and Guha, 1989) 。Cyc 包 括 一 个 推 新 引 敬 和 一 个 
使 用 CycL 语 言 描述 的 声明 数据 库 。 这 些 声 明 是 由 人 类 监督 者 输入 的 。 

这 是 一 个 容 拙 的 过 程 。 人 们 设法 设计 出 足够 复杂 的 形式 化 规则 来 精确 地 
描述 世界 。 例 如 ，Cyc 不 能 理解 一 个 关于 名 为 Fred 的 人 在 早上 着 须 的 故 
3+ (Linde, 1992) 。 它 的 推理 引擎 从 训 到 故事 中 的 不 一 致 性 : 它 知 道 
人 体 的 构成 不 包含 电气 零件 ， 但 由 于 Fred 正 拿 独 一 个 电动 剃 顷 刀 ， 它 认 
为 实体 一 一 “下 在 刹 须 的 Fred”(“FredWhileShaving”) 含有 电气 部 件 。 
些 ， 它 产生 了 这 样 的 疑问 一 一 Fred 在 刮 胡子 的 时 候 是 否 仍 然 古 一 个 人 。 


依 徘 便 编 但 的 知识 体系 面临 的 困难 表明 ，AI 系 统 需 要 具备 目 己 获取 知识 
的 能 力 ， 即 从 原始 数据 中 提取 模式 的 能 力 。 这 种 能 力 称 为 机 志 学 习 ( 
machine learning) 。 引 入 机 亏 学 习 使 计算 机 能 够 解雇 涉及 现实 世界 知识 
的 问题 ， 并 能 做 出 看 似 主观 的 决策 。 比 如 ， 一 个 称 为 馆 辑 回归 

(logistic regression) HJ fa) FQLas 7 J BIG A) DRE ce AE 
(Mor-Yosef et al. , 1990) . m FAFE se fa OLAS IAN Ab I 
(naive Bayes〉 则 可 以 区 分 垃圾 电子 邮件 和 合法 电子 邮件 。 


这 些 人 简单 的 机 需 学 习 算 法 的 性 能 在 很 大 程度 上 依赖 于 给 定数 据 的 表示 
(representation) 。 例 如 ， 当 泌 辑 回归 用 于 判断 产妇 是 售 适 合 训 腹 产 
时 ，AI 系 统 不 会 直接 检查 上 患者。 相反， 医生 和 需要 告诉 系统 几 条 相关 的 信 
轧 ， 诸 如 是 侣 存在 子 豆 净 痕 。 表 示 患 者 的 每 条 信息 称 为 一 个 特征 。 逻 辑 
器 归 学 习 病 人 的 这 些 特征 如 何 与 各 种 结果 相关 联 。 然 而 ， 它 丝 吧 不 能 影 
啊 访 特征 定义 的 方式 。 如 果 将 病人 的 MRI 核 磁 共 振 〉 扫 描 而 不 是 医 生 
正式 的 报告 作为 逆 辑 回归 的 输入 ， 它 将 无 法 做 出 有 用 的 了 预测。MRI 扫 插 
的 蛙 一 像 系 与 分 群 过 程 中 并 友 症 之 则 的 相关 性 微乎其微 。 


在 整个 计算 机 科学 力 全 日 第 生活 中 ， 对 表示 的 依赖 部 古 一 个 普 仙 现象 。 
在 计算 机 科学 中 ， 如 来 数据 集合 被 精 巧 地 结构 化 并 被 贸 能 地 索引 ， 那 么 
诸如 搜 过 之 类 的 操作 有 的 处 理 速 度 束 可 以 成 指数 级 地 加 快 。 人 人们 可 以 很 容 








易 地 在 阿拉 伯 数 字 的 表示 下 进行 算术 运算 ， 但 在 罗马 数字 的 表示 下 ， 运 
算 会 比较 耗 时 。 因 此 ， 宇 不 奇怪 ， 表 示 的 选择 会 对 机 咒 学 习 算 法 的 性 能 
产生 巨大 的 影响 。 图 1.1 展 示 了 一 个 简单 的 可 视 化 例子 。 


ffi KLAR 极 坐标 





T F 


图 1.1 不 同 表 示 的 例子 : BERIETE ANF] RRRS ARA EARR, RAME 
用 笛 卡 儿 坐 标 表 示 数 据 ， 这 个 任务 是 不 可 能 的 。 在 右 图 中 ， 我 们 用 极 坐 标 表 示 数 据 ， 可 以 用 垂 
直线 简单 地 解决 这 个 任务 (与 David Warde-Farley 合 作 绘 制 此 图 ) 


许多 人 工 镶 能 任务 都 可 以 通过 以 下 方 却 解决 : 先 捉 取 一 个 合适 的 特征 

集 ， 然 后 将 这 些 特征 捉 供 给 简单 的 机 融和 学 习 算法 。 例 如 ， 对 于 通过 声音 
鉴别 说 话 痢 的 任务 来 说 ， 一 个 有 用 的 特征 是 对 其 声 道 大 小 的 估计 。 这 个 
符 征 为 判断 说 话 者 是 男性 、 女 性 还 是 儿童 提供 了 有 力 线索 。 


然而 ， 对 于 许多 任务 来 说 ， 我 们 很 难 知道 应 该 提取 哪些 特征 。 例 如 ， 假 
设 我 们 想 编 与 一 个 程序 来 检测 照片 中 的 车 。 我 们 知道 ， 汽 车 有 轮子 ， 所 
以 我 们 可 能 会 力 用 车 轮 的 存在 与 否 作 为 特征 。 遗 慨 的 是 ， 我 们 难以 准确 
地 根据 像 系 值 来 揪 述 车 轮 看 上 去 像 什么 。 里 然 车 轮 具 有 人 简 里 的 几何 形 

KK, (HEM AMAA Hea Alois, Oe TEAR ee FAA. ABA RR SEH 
FERRERS TUE INTE A Be WETS HY A — EB oP EY Be RS o 


解雇 这 个 问题 的 途径 之 一 是 使 用 机 天 学 习 来 上 友 掘 表示 本 喘 ， 而 不 仅仅 把 
表示 瞻 射 到 和 输出。 这 种 方法 我 们 称 之 为 表示 学 习 (representation 
learning〉。 学 习 到 的 表示 往往 比 手动 设计 的 表示 表现 得 更 好 。 并 且 它 
们 只 和 需 最 少 的 人 工 干 预 ， 束 能 让 AI 系 统 迅 速 适 应 新 的 任务 。 表 示 学 习 算 
法 只 需 几 分 钟 束 可 以 为 徐 音 的 任务 及 现 一 个 很 好 的 特征 集 ， 对 于 复杂 任 





Fo ri LZ BI LAS A) BAP SAR TES WP PAE m EERE BK 
BEEN A. WAM, HE mete eS A LE 
间 。 


表示 学 习 算 法 的 典型 例子 是 目 编 人 始 颖 (autoencoder) > H mtis H~ 
个 编码 右 (encoder〉 尔 数 和 一 个 解码 器 Cdecoder) KAHAK. r 
公 硕 函数 将 输入 数据 转换 为 一 种 不 同 的 表示 ， 而 解码 右 函 数 则 将 这 个 新 
的 表示 转换 回 原 来 的 形式 。 我 们 期 望 当 输入 数据 经 过 编码 占 和 解码 磊 之 
后 尽 可 能 多 地 保留 信息 ， 同 时 硕 望 新 的 表示 有 各 种 好 的 特性 ， 这 也 是 目 
编码 需 的 训 纤 目标。 为 了 实现 不 同 的 特性 ， 我 们 可 以 设计 不 同形 陈 的 目 
mAH AF o 


“SCT RE TE BA Pe SPE AEA, RITA H fo db E EA HE 
fe PEM SAE 2 Al (factors of variation) . EKES T, “Al 
Zak Pa (TC AN SR ALPS REHA. THEA 
iH Fh ee TN BE WM EO SS BU ae. FAI, EMI AT BEE DISC TE FE PMS J A 
POA AS AMA, (Ase Ay OS ee. A SES BE BE 
HEA HAI EREE HET RAL, ETSY BE DA ee FB EE A 
类 的 思维 中 。 它 们 可 以 被 看 作 数 据 的 概念 或 者 抽象 ， 帮 助 我 们 了 解 这 些 
数据 的 丰富 多 样 性 。 当 分 析 语 音 记 录 时 ， 变 差 因素 包括 说 话 者 的 年 龄 、 
性 别 、 他 们 的 口音 和 他 们 正在 说 的 词语 。 当 分 析 汽 车 的 图 像 时 ， 变 差 因 
AAA. CINE. AAI ASE. 


FE VE & BSE A EARP, PEE Beit Pe “SR He eT) E 
FRA THE es WSS SIE as CEO, FERAL EAE AA, 
FEMA TE AIF] FY BE SSF he UTR PEORIA TR BURT AA o 
KB BULA is eB FH 3G Fe I RFP AS TAS AD HY TZ 。 

WA, MEAE HP te OM ra RK. FARR EE E AE. Ve 
be WOU A PE Ae eA aR, JR EI EAT 3S ORE. FUT A 
水 平 的 理解 来 辨识 。 这 几乎 与 获得 原 问题 的 表示 一 样 困难 ， 因 此 ， 告 一 
看 ， 表 示 竺 习 似 乎 并 不 能 帮助 我 们 。 

深度 学 习 (deep learning) 退 过 其 他 较 人 简单 的 表示 来 表达 复 末 表示 ， 解 
决 了 表示 等 习 中 的 核心 问题 。 


深度 学 习 让 计算 机 通过 较 简单 的 概念 构建 复杂 的 概念 。 图 1.2 展 示 了 深 


及 学 习 系 统 如 何 通 过 组 合 较 人 简单 的 概念 (例如 角 和 轮廓 ， 它 们 反 过 来 由 
边线 定义 ) 来 表示 图 像 中 人 的 概念 。 深 度 学 习 模 型 的 典型 例子 是 前 馈 深 
度 网 络 或 或 多 层 感 知 机 (multilayer perceptron, MLP) 。 多 层 感 知 机 仪 
仅 是 一 个 将 一 组 输入 值 了 映射 到 和 输出 全 的 数学 函数 。 该 函数 由 许多 较 侧 单 
的 函数 复合 而 成 。 我 们 可 以 认为 不 同 数学 函数 的 每 一 次 应 用 都 为 输入 提 
供 了 新 的 表示 。 


全 出 
( 对 象 识别 ) 


( 对象 部 分 ) 


第 2 隐藏 层 
( 角 和 轮廓 ) 


可 见 层 
(MARZE ) 





图 1.2 ”深度 学 习 模 型 的 示意 图 。 计 算 机 难以 理解 原始 感 观 输入 数据 的 含义 ， 如 表示 为 像 系 值 集 
合 的 图 像 。 将 一 组 像素 映射 到 对 象 标识 的 函数 非常 复杂 。 如 果 和 直接 处 理 ， 学 习 或 评估 此 映射 似 
乎 是 不 可 能 的 。 深 度 学 习 将 所 需 的 复杂 有 英 射 分 解 为 一 系列 衣 套 的 徐 单 映射 《每 个 由 模型 的 不 同 
层 摘 述 ) 来 解决 这 一 难题 。 输 入 展示 在 可 见 层 (visible layer) ， 这 样 命名 的 原因 是 因为 它 包 合 
我 们 能 观察 到 的 变量 。 然 后 是 一 系列 从 图 像 中 提取 越 来 越 多 抽象 特征 的 Ket = (hidden 
layer) 。 因 为 它们 的 值 不 在 数据 中 给 出 ， 所 以 将 这 些 层 称 为 “隐藏 层 "， 模型 必须 确定 哪些 概念 
有 利于 解释 观察 数据 中 的 关系 。 这 里 的 网 像 是 每 个 隐藏 单元 表示 的 特征 的 可 视 化 。 给 定 像 素 ， 
第 1 层 可 以 轻易 地 通过 比较 相 邻 像 际 的 之 上 度 来 识 询 边缘 。 有 了 第 1 隐 蔬 层 描 述 的 边缘 ， 第 2 隐 蔬 层 
可 以 容易 地 搜索 可 识别 为 角 和 扩展 轮廓 的 边 集 合 。 给 定 第 2 隐 攻 层 中 关于 角 和 轮廓 的 图 像 描 述 ， 
第 3 隐藏 层 可 以 找到 轮廓 和 角 的 特定 集合 来 检测 特定 对 象 的 整个 部 分 。 最 后 ， 根 据 图 像 摘 述 中 包 
含 的 对 象 部 分 ， 可 以 识别 图 像 中 存在 的 对 象 〈 经 Zeiler and Fergus (2014) 许可 引用 此 图 ) 
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深度 促使 计算 机 学 习 一 个 多 步骤 的 计算 机 程序 。 每 一 层 表示 都 可 以 被 认 
为 是 并 行 执行 为 一 组 指令 之 后 计算 机 的 存储 右 状 态 。 更 深 的 网 络 可 以 按 
顺序 执行 更 多 的 指令 。 顺 友 指 令 近 供 了 极 大 的 能 力 ， 因 为 后 面 的 指令 可 
以 参考 持 期 指令 的 结束 。 从 这 个 角度 上 看 ， 在 未 层 激活 函数 里 ， 并 非 所 
有 信息 都 理 闻 大 解释 输入 的 变 兰 因 素 。 表 示 还 存储 看 状态 信息 ， 用 于 瑚 
助 程序 理解 输入 。 这 里 的 状态 信息 闫 似 于 传统 计算 机 程序 中 的 计数 套 或 
指针 。 它 与 具体 的 输入 内 容 无 天 ， 但 有 助 于 模型 组 织 其 处 理 过 程 。 


日前 主要 有 两 种 度量 模型 深度 的 方式 。 一 种 方式 是 基于 评 信和 架构 所 二 执 
行 的 顺序 指令 的 数目 。 假 设 我 们 将 模型 表示 为 给 定 输入 后 ， 计 算 对 应 输 
出 的 流程 图 ， 则 可 以 将 这 张 沉 程 图 中 的 最 长 路 径 视 为 模型 的 深度 。 正 如 
两 个 使 用 不 同 语言 编写 的 等 价 程序 将 具有 不 同 的 长 度 ， 相 同 的 函数 可 以 
航 绘制 为 具有 不 同 次 度 的 流程 图 ， 其 深度 取决 于 我 们 可 以 用 来 作为 一 个 
步骤 的 函数 。 图 1.3 说 明了 语言 的 选择 如 何 给 相同 的 架构 两 个 不 同 的 衡 


逻辑 回归 


图 1.3 ”将 输入 映射 到 输出 的 计算 图 表 的 示意 图 ， 其 中 每 个 节点 执行 一 个 操作 。 深 度 古 从 输入 到 
输出 的 最 长 路 径 的 长 上 度 ， 但 这 取决 于 可 能 的 计算 步 又 的 定义 。 这 些 图 中 所 示 的 计算 是 逻辑 回归 
模型 的 输出 ，o(w 1 x)， 其 中 o 是 logistic sigmoid 函 数 。 如 果 使 用 加 法 、 乘 法 和 logistic sigmoid 作 
为 计算 机 语言 的 元 叉 ， 那 么 这 个 模型 深度 为 3;， 如 果 将 逻辑 回归 视 为 元 际 本 身 ， 那 么 这 个 模型 深 
度 为 1 


为 一 种 是 在 深度 概率 模型 中 使 用 的 方法 ， 它 不 是 将 计算 图 的 深度 视 为 模 


型 深度 ， 而 是 将 描述 概念 彼此 如 何 关联 的 图 的 深度 视 为 模型 深度 。 在 这 
种 情况 下 ， 计 算 每 个 概念 表示 的 计算 流程 图 的 深度 可 能 比 概念 本 身 的 图 





更 深 。 这 征 因 为 系统 对 较 简 单 概念 的 理解 在 给 出 更 复杂 概念 的 信息 后 可 
以 进一步 精细 化 。 例 如 ， 一 个 AI 系统 观察 其 中 一 只 眼睛 在 阴影 中 的 脸 音 
图 像 时 ， 它 最 初 可 能 只 看 到 一 只 眼睛 。 但 当 检 测 到 脸 部 的 存在 后 ， 系 统 
可 以 推断 第 二 只 眼睛 也 可 能 是 存在 的 。 在 这 种 情况 下 ， 概 念 的 图 仅 包 括 
两 屋 〈 天 于 眼睛 的 层 和 关于 脸 的 层 ) ， 但 如 果 我 们 细 化 每 个 概念 的 估计 
Fe ris SUP AT > 那么 计算 的 图 将 包 售 2n 层 。 


由 于 并 不 总 是 清楚 计算 图 的 深度 和 概率 异型 图 的 深度 哪 一 个 是 最 有 意义 
的 ， 并 且 由 于 不 同 的 人 选择 不 同 的 最 小 元 系 集 来 构建 相应 的 图 ， 所 以 束 
像 计算 机 程序 的 长 度 不 存在 单一 的 正确 值 一 样 ， 架 构 的 深度 也 不 存在 单 
一 的 正确 值 。 故 外 ， 也 不 存在 模型 多 么 深 才 能 被 修饰 为 “ 深 ” 的 共识 。 但 
相 比 传统 机 可 学 习 ， 深 大 学 习 研 究 的 模型 涉及 更 多 学 到 功能 或 学 到 概 食 
ZA, OES EE 


总 之 ， 这 本 书 的 主题 一 一 深度 学 习 是 通 问 人 工 智能 的 途径 乙 一 。 基 体 来 
说 ， 它 是 机 带 学 习 的 一 种 ， 一 种 能 够 使 计算 机 系统 从 经 验 和 数据 中 得 到 
提高 的 技术 。 我 们 坚信 机 规 学 习 可 以 构建 出 在 复杂 实际 环境 下 运行 的 Ai 
系统 ， 并 且 是 唯一 切实 可 行 的 方法 。 深 度 学 习 是 一 种 特定 类 型 的 机 器 学 
J, RAGA HEA A GPE, CHR TERR IRE EN R 
Fa CHB el FA es TB) I AR RE I ARS MS BOS Be TH 
表示 ) 。 图 1.4 说 明了 这 些 不 同 的 AI 学 科 之 间 的 关系 。 图 1.5 展 示 了 每 个 
学 科 如 何 工作 的 高 层次 原理 。 
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图 1.4 ” 维 恩 图 展示 了 深度 学 习 既 是 一 种 表示 和 学习 ， 也 是 一 种 机 占 学 习 ， 可 以 用 于 许多 (但 不 是 
全 部 )AI 方 法 。 维 恩 图 的 每 个 部 分 包括 一 个 AI 技 术 的 实例 


从 特征 上 映射 





基于 规则 的 系统 。 经 典 机 器 学 习 


表示 学 习 


图 1.5 ”流程 图 展示 了 AI 系统 的 不 同 部 分 如 何在 不 同 的 AI 学 科 中 彼此 相关 。 阴 影 框 表 示 能 从 数据 
中 学 习 的 组 件 


1.1 本 书面 同 的 读者 


本 书 对 各 类 读者 部 有 一 定 的 用 处 ， 但 主要 是 为 两 类 受众 而 写 的 。 其 中 ， 
RRR EF la FARE CRRA) ， 包 括 那 些 已 经 开 
Gi WA My AE EE AR ES OI ALA OT ET Fae oF RAR EIA DL FJ 
Beit A at, (Aas Re KIEA MAR, FR ERAT oe BOP S 
中 使 用 深度 学 习 的 软件 工程 师 。 现 已 证 明 ， 深 度 学 习 在 许多 软件 领域 都 
是 有 用 的 ， 包 括 计算 机 视觉 、 语 音 和 音频 处 理 、 目 然 语言 处 理 、 机 和 大 人 
拉 术 、 生 物 信息 学 和 化 学 、 电 子 游 戏 、 搜 索引 擎 、 网 络 广告 和 金融 。 


为 了 更 好 地 服务 各 类 读者 ， 我 们 将 本 书 组 织 为 3 个 部 分 。 第 1 部 分 介绍 基 


本 的 数学 工具 和 机 器 学 习 的 概念 。 第 2 部 分 介绍 最 成 熟 的 深度 学 习 算 
法 ， 这 些 扩 术 基本 上 已 经 得 到 解决 。 第 3 部 分 讨论 有 示 些 具有 展望 性 的 想 
VK ENT BO YZ EWU OA ETA BEE AI ACRE OT FE BLS o 
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Dl. M28 MASA Lae OD Bs Bae A] DARE BR LABS o ARE A ee AE 
实现 一 个 能 工作 的 系统 ， 则 不 需要 阅读 超出 第 2 部 分 的 内 容 。 为 了 帮助 
读者 选择 革 三 ， 图 1.6 给 出 了 本 书局 层 组 织 结构 的 流程 图 。 


第 1 部 分 应 用 数学 与 机 天 学 习 基 础 


. 线性 代数 3. 概率 与 信息 论 


5. 机 入 笠 习 基础 


第 2 部 分 深度 网 络 :现代 实践 


6. 深度 前 僻 网 络 


7. 正则 化 


13. 线性 因子 模型 


16. 结构 化 概率 模型 


19. EMT 








图 1.6 ”本 书 的 高 层 组 织 结构 的 流程 图 。 从 一 章 到 另 一 章 的 箭头 表示 前 一 章 是 理解 后 一 章 的 必 备 
内 容 


BUA VEC BAT A KARRERAN SE to TBC AE, FPL 
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的 了 解 。 


《深度 学 习 》 英文 版 配套 网 站 是 www.deeplearningbook.org。 网 站 上 提供 


了 各 种 补充 材料 ， 包 括 练 习 、 讲 义 幻 灯 片 、 错 误 更 正 以 及 其 他 应 该 对 读 
者 和 讲师 有 用 的 资源 。 


《 深 大 和 学习》 中 文 版 的 读者 ， 可 访问 人 民 邮 电 出 版 社 异步 社区 网 站 
www.epubit.com.cn， 获 取 更 多 图 书信 息 。 


12 ”深度 学 习 的 历史 趋势 


通过 历史 育 景 了 解 深 度 学 习 和 是 了 最 简单 的 方式 。 这 里 我 们 仅 指 出 深度 学 习 
的 几 个 关键 趋势 ， 而 不 是 提供 其 详细 的 历史 : 


。 深度 学 习 有 看 悠久 而 丰富 的 历史 ,但 随 看 许多 不 同 冰 学 观 后 的 渐渐 
消逝 ， 与 乙 对 应 的 名 称 也 渐渐 人 尘封。 

。 随 痢 可 用 的 训练 数据 量 不 断 增 加 ， 深 度 学 习 变 得 更 加 有 用 。 

。 随 看 时 间 的 推 稀 ， 针 对 深 友 学 习 的 计算 机 软 便 件 基础 设施 部 有 所 改 
普 ， 深 度 和 学 习 模 型 的 规模 也 随 之 增长 。 

PR EO 
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1.2.1 神经 网 络 的 众多 名 称 和 命运 变迁 


我 们 期 待 这 本 书 的 许多 读者 都 听 说 过 深度 学 习 这 一 激动 人 心 的 新 技术 ， 
并 对 一 本 书 提 及 一 个 新 兴 领 域 的 “历史 * 而 感到 惊讶 。 事 实 上 ， 深 度 学 习 
的 历史 可 以 追溯 到 20 世 纪 40 年 代 。 深 度 学 习 看 似 是 一 个 全 新 的 领域 ， 只 
不 过 因为 在 目前 流行 的 前 几 年 它 还 是 相对 冷门 的 ， 同 时 也 因为 它 被 赋予 
了 许多 不 同 的 名 称 〈 其 中 大 部 分 已 经 不 再 使 用 ) ， 最 近 才 成 为 众所周知 
的 “深度 学 习 ”。 这 个 领域 已 经 更 换 了 很 多 名 称 ， 它 反映 了 不 同 的 研究 人 
员 和 不 同 观点 的 影响 ， 


全 面 地 讲述 次 度 学 习 的 历史 超出 了 本 书 的 范围 。 然 而， 一 些 基 本 的 育 景 
对 理解 深 夏 学 习 是 有 用 的 。 一 般 认为 ， 运 今 为 止 深度 和 学习 已 经 经 历 了 3 
UR AC EVRA: 20 世 纪 40 年 代 到 60 年 代 ， 深 上 度 学 习 的 欠 形 出 现在 控制 论 
(cybernetics) 中 ; 20 志 纪 80 年 代 到 90 年 代 ， 深 度 和 学习 表现 为 联结 主义 
(connectionism) ; 直到 2006 年 ， 才 真正 以 深度 学 习 之 名 复兴 。 图 1.7 给 
出 了 定量 的 展示 。 
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图 1.7 根据 Google 图 书 中 短语 “控制 论 ”“ 联 结 主义 ”或 “神经 网 络 ” 频 这 衡 量 的 人 工 神 经 网 络 研 究 
的 历史 浪潮 (图 中 展示 了 3 次 浪潮 的 前 两 次 ， 第 3 次 最 近 才 出 现 ) 。 第 1 次 浪潮 开始 于 20 世 纪 40 年 
代 到 20 世 纪 60 年 代 的 控制 论 ， 随 着 生物 学 习 理 论 的 发 展 (McCulloch and Pitts, 1943; Hebb, 
1949) 和 第 一 个 模型 的 实现 (如 感知 机 〈Rosenblatt，1958) ) ， 能 实现 单个 神经 元 的 训练 。 第 
2 次 浪潮 开始 于 1980 一 1995 年 间 的 联结 主义 方法 ， 可 以 使 用 反 癌 传播 (Rumelhart etal. ，1986a) 
训练 具有 一 两 个 隐藏 层 的 神经 网 络 。 当 前 第 3 次 浪潮 ， 也 就 是 深度 学 习 ， 大 约 始 于 2006 年 
(Hinton etal. ，2006a; Bengio etal. ，2007a; Ranzato etal., 2007a) ， 并 且 于 2016 年 以 图 书 f 
形式 出 现 。 为 外 ， 前 两 次 浪潮 类 似 地 出 现在 书 中 的 时 间 比 相应 的 科学 活动 晚 得 多 


我 们 今天 知道 的 一 些 最 早 的 学 习 算 法 ， 则 在 模拟 生物 学 习 的 计算 模型 ， 
即 大 脑 怎 样 学 习 或 为 什么 能 学 习 的 檬 型 。 其 结果 是 深 度 学习 以 人 工 神 经 
网 络 (artificial neural network, ANN) ŻE mM E. K, RREZJA 
型 被 认为 是 受 生 物 大 脑 “〈 无 论 人 类 大 脑 或 其 他 动物 的 大 脑 ) 所 局 发 而 设 
计 出 来 的 系统 。 尽 管 有 些 机 需 学 习 的 神经 网 络 有 时 被 用 来 理解 大 脑 功 能 
(Hinton and Shallice, 1991) ， 但 它们 一 般 都 没有 设计 成 生物 功能 的 真 
实 模型 。 深 度 学 习 的 神经 观点 受 两 个 主要 思想 局 及 : 一 个 想法 是 ， 大 脑 
作为 例子 证 明知 能 行为 是 可 能 的 ， 因 此 ， 概 仿 上 ， 建 立 智能 的 直接 途径 
是 逆 问 大 脑 背 后 的 计算 原理 ， 并 复制 其 功能 ; 为 一 种 看 法 是 ， 理 解 大 脑 
和 人 类 智能 背后 的 原理 也 非 党 有趣， 因此 机 大 学 习 模 型 除了 解决 工程 应 
用 有 的 能 力 ， 如 果 能 让 人 类 对 这 些 基 本 的 科学 问题 有 进一步 的 认识 ， 也 将 
会 很 有 用 。 


现代 术语 “深度 和 学习” 超越 了 目前 机 融和 学习 模型 的 神经 科学 观 操 。 它 诉 诸 
于 学 习 多 层次 组 合 这 一 更 普遍 的 原理 ， 这 一 原理 也 可 以 应 用 于 那些 并 非 
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现代 深度 学 习 最 早 的 前 身 是 从 神经 科学 的 角度 出 发 的 简单 线性 模型 。 这 
些 模型 设计 为 使 用 一 组 n 个 输入 x 1 ，…，x 。， 并 将 它们 与 一 个 输出 y 相 
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控制 论 。 


McCulloch-Pitts 神 经 元 (McCulloch and Pitts, 1943) 是 脑 功能 的 早期 模 
型 。 该 线性 模型 通过 检验 函数 f(x,w) 的 正 负 来 识别 两 种 不 同类 别 的 输 
入 。 显 然 ， 模 型 的 权重 需要 正确 设置 后 才能 使 模型 的 输出 对 应 于 期 望 的 
类 别 。 这 些 权 重 可 以 由 操作 人 员 设 定 。20 世 纪 50 和 年代， 感知 机 
(Rosenblatt, 1956, 1958) 成 为 第 一 个 能 根据 每 个 类 别 的 输入 样本 来 
尝 习 权重 的 模型 。 大 约 在 同一 时 期 ， 目 适应 线性 单元 (adaptive linear 
element, ADALINE) 人 简单 地 返回 图 数 f( x  ) 本 号 的 值 来 预测 一 个 实数 
(Widrow and Hoff, 1960) ， 并 且 它 还 可 以 学 习 从 数据 预测 这 些 数 。 


这 些 简 竺 的 学 习 算 法 大 大 影响 了 机 颖 学 习 的 现代 景象 。 用 于 调 市 
ADALINE 权 重 的 训 纤 算 法 是 航 称 为 随机 梯度 下 降 (stochastic gradient 
descent) 的 一 种 特例 。 稍 加 改进 后 的 随机 梯度 下 降 算 法 仍然 是 当今 深 谋 
学 习 的 主要 训练 算法 。 


基于 感知 机 和 ADALINE 中 使 用 的 函数 f(x,w) 的 模型 称 为 线性 模型 
(linear model) 。 尽 管 在 许多 情况 下 ， 这 些 模 型 以 不 同 于 原始 模型 的 方 
式 进 行 训 练 ， 但 仍 是 目前 最 广泛 使 用 的 机 峰 学 习 模型 。 


线性 模型 有 很 多 局 限 性 。 最 兰 名 的 是 ， 它 们 无 法 学 习 寞 或 (XOR) 图 
4X, BUE((0,1],w)=1M£((1,0],w)=1, (8 f((1,1],w)=0Ff((0,0],w)=0. Wes F 
线性 模型 这 个 缺陷 的 批评 者 对 受 生 物 学 局 发 的 学 习 普 过 地 产生 了 抵触 
(Minsky and Papert, 1969) 。 这 寻 致 了 神经 网 络 热潮 的 第 一 次 大 袁 
退 。 


现在 ， 神 经 科学 被 视 为 深度 学 习 研 究 的 一 个 重要 录 感 来 源 ， 但 它 已 不 再 
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如 今 神 经 科学 在 深 丰 学 习 研 究 中 的 作用 被 曾 弱 ， 主 要 原因 是 我 们 根本 没 
有 足够 的 关于 大 脑 的 信息 来 作为 指导 去 使 用 它 。 要 获得 对 伏 大 脑 实际 使 
用 算法 的 深刻 理解 ， 我 们 需要 有 能力 同 时 监测 (人 至少 是 ) 数 千 相连 神经 
元 的 活动 。 我 们 不 能 够 做 到 这 一 点 ， 所 以 我 们 甚至 连 大 脑 最 简单 、 最 深 
入 人 研究 的 部 分 都 还 远 远 没有 理解 (Olshausen and Field, 2005) 。 


神经 科学 已 经 给 了 我 们 依靠 单一 深度 学 习 算 法 解决 许多 不 同 任务 的 理 
由 。 神 经 学 家 们 发 现 ， 如 果 将 雪 铬 的 大 脑 重 新 连接 ， 使 视 训 信号 传送 到 
听觉 区域， 它们 可 以 学 会 用 大 脑 的 听 和 客 处 理 区 域 去 “看 ”(Von Melchner 
et al. , 2000) 。 这 上 蜡 示 看 大 多 数 哺 乳 动 物 的 大 脑 使 用 单一 的 算法 了 怠 可 
以 解决 其 大 脑 可 以 解决 的 大 部 分 不 同 任务 。 在 这 个 假设 之 前 ， 机 疾 学 习 
研究 是 比较 分 散 的 ， 研 究 人 员 在 不同 的 社 群 研究 目 然 语言 处 理 、 计 算 机 
钢 党 、 运 动 规划 和 语 首 识 别 。 如 今 ， 这 些 应 用 社 群 仍然 是 独 世 的， 但 是 
对 于 深度 学 习 研 究 团体 来 说 ， 同 时 研究 许多 甚至 所 有 这 些 应 用 领域 是 很 
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我 们 能 够 从 神经 科学 得 到 一 些 粗 略 的 指南 。 仅 通过 计算 单元 之 间 的 相互 
作用 而 变 得 智能 的 基本 思想 是 受 大 脑 局 发 的 。 新 认 知 机 《Fukushima,， 

1980) 受 哺 乳 动 物 视 觉 系 统 的 结构 局 发 ， 引 入 了 一 个 处 理 图 上 厂 的 强大 村 
型 架构 ， 它 后 来 成 为 了 现代 卷 积 网 络 的 基础 (LeCun et al. ，1998c) 
(参见 第 9.10 节 〉 。 日 前 大 多 数 神经 网 络 是 基于 一 个 称 为 整流 线性 早 元 
(rectified linear ”unit〉 的 神经 日 元 模型 。 原 始 认 知 机 (Fukushima, 
1975) 受 我 们 关于 大 脑 功能 知识 的 局 发 ， 引 入 了 一 个 更 复 林 的 版 本 。 俐 
化 的 现代 厂 通 过 吸收 来 目 不 同 观点 的 思想 而 形成 ，Nair and 
Hinton (2010b) 和 Glorot et al. (2011a) 援引 神经 科学 作为 影 啊 ， 
Jarrett et al. (2009a) 援引 更 多 面 同 工程 的 影响 。 虽 然 神 经 科学 是 灵感 
的 重要 来 源 ， 但 它 不 需要 被 视 为 刚性 指导 。 我 们 知道 ， 真 实 的 神经 元 计 
算 看 与 现代 整流 线性 单元 非常 不 同 的 阔 数 ， 但 更 接近 真实 神经 网 络 的 系 
统 并 没有 导致 机 器 学 习性 能 的 提升 。 此 外 ， 虽 然 神 经 科学 已 经 成 功 地 启 
及 了 一 些 神经 网 络 架 构 ， 但 我 们 对 用 于 神经 科学 的 生物 学 习 还 没有 足够 
多 的 了 解 ， 因 此 也 如 不 能 为 训练 这 些 架 构 用 的 学 习 算 法 提供 太 多 的 借 
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FN La J OAT AR NO 的 研究 者 更 可 能 地 引用 大 
脑 作 为 影响 ， 但 是 大 家 不 应 该 认为 深度 学 习 在 符 试 醒 拟 大 脑 。 现 代 次 度 
学 习 从 许多 领域 获取 有 灵感， 特别 是 应 用 数学 的 基本 内 容 ， 如 线性 代数 、 
概率 论 、 信 息 论 和 数 信 优 化。 尽管 一 些 深度 学 习 的 研究 人 员 引 用 神经 科 
学 作为 灵感 的 重要 来 源 ， 然 而 其 他 竺 者 完全 个 天 心神 经 科学 。 


值得 注意 的 是 ， 了 解 大 脑 是 如 何在 算法 层面 上 工作 的 符 试 确实 存在 且 友 
展 民 好 。 这 项 符 试 主要 航 称 为 “计算 神 经 科学 ?>， 并 且 是 独立 于 深度 学 习 
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主要 关注 如 何 构建 计算 机 系统 ， 从 而 成 功 解决 需要 鲁能 才能 解决 的 任 
务 ， 而 计算 神经 科学 领域 主要 关注 构建 大 脑 如 何 真 实 工作 的 、 比 较 精确 
的 模型 。 


20 志 纪 80 年 代 ， 神 经 网 络 研究 的 第 二 次 浪潮 在 很 大 程度 上 是 伴随 一 个 被 
称 为 联结 主义 《connectionism) 或 并 行 分 布 处 理 (parallel distributed 
processing) 滑 流 而 出 现 的 (Rumelhart et al. , 1986d; McClelland et al. 
，1995) 。 联 结 主义 古 在 认 知 科学 的 背景 下 出 现 的 。 认 知 科学 古 理解 中 
维 的 路 学 科 途 径 ， 即 它 融 合 多 个 不 同 的 分 析 层 次 。20 世 纪 80 年 代 初 期 ， 
大 多 数 认 知 科 学 家 研究 符号 推理 模型 。 尽 管 这 很 流行 ， 但 符号 模型 很 难 
解释 大 脑 如 何 真正 使 用 神经 元 实现 推理 功能 。 联 结 主 义 者 开始 研究 真正 
基于 神经 系统 实现 的 认 知 模型 (Touretzky and Minton, 1985) ， 其 中 很 
多 复苏 的 想法 可 以 追溯 到 心理 学 家 Donald Hebb 在 20 世 纪 40 年 代 的 工作 
(Hebb, 1949) . 


联结 主义 的 中 心思 想 是 ， 当 网 络 将 大 量 人 简单 的 计算 单元 连接 在 一 起 时 可 
以 实现 智能 行为 。 这 种 见解 同样 适用 于 生物 神经 系统 中 的 神经 元 ， 因 为 
它 和 计算 模型 中 隐藏 里 元 起 看 类 似 的 作用 。 


在 20 世 纪 80 年 代 的 联结 主义 期 间 形 成 的 几 个 关键 概念 在 今天 的 深度 学 习 
中 仍然 是 非 音 重要 的 。 


其 中 一 个 概念 是 分 布 式 表示 distributed representation) (Hinton et al. 
, 1986) 。 其 思想 古 : 系统 的 每 一 个 输入 都 应 该 由 多 个 特征 表示 ， 并 且 
每 一 个 特征 都 应 该 参与 到 多 个 可 能 输入 的 表示 。 例 如 ,假设 我 们 有 一 个 
能 够 识别 红色 、 绿 色 或 赣 色 的 汽车 、 卡 车 和 乌 类 的 视觉 系统， 表示 这 些 
得 入 的 其 中 一 个 方法 是 将 9 个 可 能 的 组 合 : 红 卡 车 、 红 汽车 、 红 乌 、 绿 
卡车 等 使 用 单独 的 神经 元 或 隐藏 单元 激活 。 这 需要 9 个 不 同 的 神经 元 ， 
并 且 每 个 神经 必须 独立 地 学 习 颜色 和 对 象 且 份 的 概念 。 改 善 这 种 情况 的 
方法 之 一 是 使 用 分 布 式 表 示 ， 即 用 3 个 神经 元 描述 颜色 ，3 个 神经 元 描述 
对 象 身 份 。 这 仅仅 需要 6 个 神经 元 而 不 征 9 个 ， 并 且 朱 述 红 色 的 神经 元 能 
人 够 从 汽车 、 卡 车 和 乌 类 的 图 像 中 学 习 红色 ， 而 不 仅仅 是 从 一 个 特定 闫 别 
的 图 像 中 学 习 。 分 布 式 表示 的 概念 是 本 书 的 核心 ， 我 们 将 在 第 15 章 中 更 
加 详细 地 摘 述 。 
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神经 网 络 中 的 成 功 使 用 以 及 反 回 传播 算法 的 普及 (Rumelhart et al. , 
1986c; LeCun, 1987) 。 这 个 算法 虽然 兽 黯 然 失 色 且 不 再 流行 ， 但 截至 
写 书 之 时 ， 它 仍 是 训练 深度 模型 的 主导 方法 。 


20 世 纪 90 年 代 ， 研 究 人 员 在 使 用 神经 网 络 进行 序列 建 模 的 方面 取得 了 重 
要 进展 。Hochreiter (1991b) 和 Bengio et al. (1994b) 指出 了 对 长 序列 
进行 建 模 的 一 些 根 本 性 数学 难题 ， 这 将 在 第 10.7 节 中 摘 述 。Hochreiter 和 
Schmidhuber (1997) 引入 长 短期 记忆 dong short-term memory, 

LSTM) 网 络 来 解决 这 些 难 题 。 如 今 ，LSTM 在 许多 序列 建 模 任务 中 广 

泛 应 用 ， 包 括 Google 的 许多 目 然 语言 处 理 任务 。 


神经 网 络 研 究 的 第 二 次 当 漳 一 直 持续 到 20 世 纪 90 年 代 中 期 。 基 于 神经 网 
络 和 其 他 AI 拉 术 的 创业 公司 开始 寻求 投资 ， 其 做 法 野心 动 动 但 不 切实 
际 。 当 AI 研究 不 能 实现 这 些 不 合理 的 期 望 时 ， 投 资 者 感到 失望 。 同 时 ， 
机 噩 学 习 的 其 他 领域 取得 了 进步 。 比 如 ， 核 方法 (Boser et al. , 1992; 
Cortes and Vapnik, 1995; Schélkopf et al. , 1999) 和 图 模型 (Jordan, 
1998) HERE BEER ESCH SRE. PSA EA S HAE 
2 AGN EIB, FF — EPPS B20075F 


在 此 期 间 ， 神 经 网 络 继续 在 菜 些 任务 上 获得 令 人 印象 深刻 的 表现 
(LeCun et al. , 1998c; Bengio et al. , 2001a) > MERKAKI AT 
(CIFAR) 通过 其 神经 计算 和 目 适 应 感知 CNCAP) 研究 计划 帮助 维持 
神经 网 络 研 究 。 访 计划 联合 了 分 别 由 Geoffrey Hinton、Yoshua Bengio 和 
Yann LeCun 领 导 的 多 伦 多 大 学 、 莹 特 利 尔 大 学 和 纽约 大 学 的 机 项 学 习 研 
完小 组 。 这 个 多 学 科 的 CIFAR NCAP 研究 计划 还 包括 了 神经 科学 家 、 人 

类 和 计算 机 视 党 专家。 


在 那个 时 低 ， 人 们 普 衣 认为 深度 网 络 是 难以 训练 的 。 现 在 我 们 知道 ，20 
世纪 80 年 代 束 存在 的 算法 能 工作 得 非常 好 ， 但 是 直到 2006 年 前 后 都 没有 
体现 出 来 。 这 可 能 仅仅 由 于 其 计算 代价 太 高 ， 而 以 当时 可 用 的 便 件 难以 
进行 足够 的 实验 。 


神经 网 络 研 究 的 第 三 次 浪潮 始 于 2006 年 的 突破 。Geoffrey Hinton 表 明 名 
为 “深度 信 念 网 络 ” 的 神经 网 络 可 以 使 用 一 种 称 为 “ 信 梦 过 层 预 训练 ”的 牺 
略 来 有 效 地 训练 (Hinton et al. , 2006a) ， 我 们 将 在 第 15.1 节 中 更 详细 
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练 许 多 其 他 类 型 的 深度 网 络 (Bengio and LeCun, 2007a; Ranzato et al. 
，2007b) ， 并 能 系统 地 帮助 提高 在 测试 样 例 上 的 泛 化 能 力 。 神 经 网 络 
研究 的 这 一 次 当 测 普及 了 "深度 和 学习” 这 一 术语， 强调 研究 者 现在 有 能 

训练 以 前 不 可 能 训练 的 比较 深 的 神经 网 络 ， 并 着 力 于 深度 的 理论 重要 性 
上 (Bengio and LeCun, 2007b; Delalleau and Bengio, 2011; Pascanu et 
al., 2014a; Montufar etal. , 2014) . JEN, REE HAM ZA OARS S 
之 苋 搜 的 其 于 其 他 机 融 学 习 拉 术 以 及 手工 设计 功能 的 AI 系 统 。 在 写 这 本 
书 的 时 候 ， 神 经 网 络 的 第 三 次 肥 展 浪 泣 仍 在 继续 ， 尺 官 深 度 学 习 的 研究 
重点 在 这 一 段 时 间 内 友 生 了 巨大 变化 。 第 三 次 良 漳 已 开始 独眼 于 新 的 无 
监督 学 习 技术 和 深度 柑 型 在 小 数据 集 的 泛 化 能 力 ， 但 目前 更 多 的 兴趣 扣 
仍 是 比较 传统 的 监督 学 习 算 法 和 深 展 模型 充分 利用 大 型 标注 数据 集 有 的 能 
yee 
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人 们 可 能 想 问 ， 既 然 人 工 神 经 网 络 的 第 一 个 实验 在 20 世 纪 50 年 代 束 完成 
了 ， 但 为 什么 深度 学 习 直 到 最 近 才 被 认为 是 天 键 撤 术 ?” 目 20 世 纪 90 年 代 
以 来 ， 深 度 学 习 束 已 经 成 功用 于 商业 应 用 ， 但 通 第 被 视 为 一 种 只 有 专家 
才 可 以 使 用 的 艺术 而 不 是 一 种 技术 ， 这 种 观点 一 直 持 续 到 最 这。 确实 ， 

要 从 一 个 深度 学 习 算 法 获得 展 好 的 性 能 需要 一 些 扩 巧 。 蔷 运 的 是 ， 随 看 
训练 数据 的 增加 ， 所 需 的 技巧 正在 减少 。 上 有 目前 在 复杂 的 任务 中 达到 人 类 
水 平 的 学 习 算 法 ， 与 20 世 纪 80 年 代 努 力 解 决 玩 其 问题 (toy problem) 的 
学 习 算 法 几乎 是 一 样 的 ， 尽 党 我 们 使 用 这 些 算 法 训练 的 模型 经 历 了 变 
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者 时 间 的 推移 而 显著 增加 。 这 种 趋势 是 由 社会 日 蔓 数 字 化 豫 动 的 。 由 于 
我 们 的 活动 越 来 越 多 地 发 生 在 计算 机 上 ， 我 们 做 什么 也 越 来 越 多 地 被 记 
录 。 由 于 计算 机 越 来 越 多 地 联网 在 一 起 ， 这 些 记 录 变 得 更 容易 集中 管 

理 ， 并 更 容易 将 它们 整理 成 适 于 机 和 需 学 习 应 用 的 数据 集 。 因 为 统计 估计 
的 主要 负担 〈 观 察 少 量 数据 以 在 新 数据 上 汉化 ) 已 经 减轻 , “大 数据 ?时 
代 使 机 器 学 习 更 加 容易 。 截 至 2016 年 ， 一 个 粗略 的 经 验 法 则 是 ， 监 督 深 
友和 学 习 算 法 在 每 类 给 定 约 5000 个 标注 样本 情况 下 一 般 将 达到 可 以 接受 的 
性 能 ， 当 至 少 有 1000 万 个 标注 样本 的 数据 集 用 于 训练 时 ， 它 将 达到 或 超 
过 人 关 表 现 。 上 此外， 在 更 小 的 数据 集 上 获得 成 功 是 一 个 重要 的 研究 领 
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图 1.8 与 日 俱 增 的 数据 量 。20 世 纪 初 ， 统 计 学 家 使 用 数 百 或 数 干 的 手动 制作 的 度量 来 研究 数据 
集 (Garson, 1900; Gosset, 1908; Anderson, 1935; Fisher, 1936) 。20 世 纪 50 年 代 到 80 年 

代 ， 受 生物 司 发 的 机 需 学 习 开 折 者 通 第 使 用 小 的 合成 数据 集 ， 如 低 分 辨 率 的 字母 位 图 ， 设 计 为 
在 低 计 算 成 本 下 表明 神经 网 络 能 够 学 习 特 定 功 能 (Widrow and Hoff, 1960; Rumelhart et al. , 

1986b) 。20 志 纪 80 年 代 和 90 年 代 ， 机 器 学 习 变 得 更 偏 统 计 ， 并 开始 利用 包含 成 二 上 万 个 样本 的 
更 大 数据 集 ， 如 手写 扫描 数字 的 MNIST 数 据 集 〈 如 图 1.9 所 示 ) (LeCun etal., 1998c) 。 在 21 
世纪 的 第 一 个 10 年 里 ， 相 同 大 小 更 复杂 的 数据 集 持 续 出 现 ， 如 CIFAR-10 数 据 集 (Krizhevsky and 
Hinton, 2009) 。 在 这 10 年 结束 和 接 下 来 的 5 年 ， 明 最 更 大 的 数据 集 (包含 数 万 到 数 干 万 的 样 

例 ) 完全 改变 了 深度 学 习 可 能 实现 的 事 。 这 些 数 据 集 包括 公共 Street View House Numbers 数 据 集 
(Netzer etal. 2011) 、 各 种 版 本 的 InageNet 数 据 集 (Deng etal., 2009, 2010a; Russakovsky 
etal., 2014a) 以 及 Sports-1M 数 据 集 (Karpathy etal., 2014) 。 在 图 顶部 ， 我 们 看 到 翻译 句子 


的 数据 集 通 常 远 大 于 其 他 数据 集 ， 如 根据 Canadian Hansard 制 作 的 IBM 数 据 集 (Brown etal., 
1990) 和 和 WMT 2014 瑞 法 数据 集 (Schwenk, 2014) 
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图 1.9 ”MNIST 数 据 集 的 输入 样 例 。“NIST” 代 表 国 家 标准 和 技术 研究 所 (National Institute of 
Standards and Technology) ， Fe BIE IK EEE ALA. “MAREE ALY (Modified) ”, X 
更 容易 地 与 机 器 学 习 算 法 一 起 使 用 ， 数 据 已 经 过 预 处 理 。MNIST 数 据 集 包括 手 号 数字 的 小 对 和 
相关 标签 《〈 摘 述 每 个 图 像 中 包含 0-9 中 哪个 数字 ) 。 这 个 人 简 蛙 的 分 类 问题 是 深 夏 学 习 研 究 中 最 简 
单 和 最 广泛 使 用 的 测试 之 一 。 尽 管 现代 技术 很 容易 解决 这 个 问题 ， 它 仍然 很 受 欢 迎 。Geoffrey 
Hinton 将 其 摘 述 为 “机 器 学 习 的 采 量 ?”， 这 意味 看 机 器 学 习 研 究 人 员 可 以 在 受 探 的 实验 室 条 件 下 
研究 他 们 的 算法 ， 束 像 生物 学 家 经 常 研 究 果 蝇 一 样 


1.2.3 ”与日俱增 的 模型 规模 


20 世 纪 80 年 代 ， 神 经 网 络 只 能 取得 相对 较 小 的 成 功 ， 而 现在 神经 网 络 非 
P Se ee a PE ae SX 

。 联 结 主 义 的 主要 见解 之 一 是 ， 当 动物 的 许多 神经 元 一 起 工作 时 会 变 
rt Sata beer Cane, 


生物 神经 元 不 是 特别 稠密 地 连接 在 一 起 。 如 图 1.10 所 示 ， 几 十 年 来 ， 我 
们 的 机 融和 学 习 模 型 中 每 个 神经 元 的 连接 数量 已 经 与 哺乳 动物 的 大 脑 在 同 
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图 1.10 与 日 俱 增 的 每 个 神经 元 的 连接 数 。 最 初 ， 人 工 神 经 网 络 中 神经 元 之 间 的 连接 数 受 限于 
硬件 能 力 。 而 现在 ， 神 经 元 之 间 的 连接 数 大 多 是 出 于 设计 考虑 。 一 些 人 工 神经 网 络 中 每 个 神经 
元 的 连接 数 与 猫 一 样 多 ， 并 且 对 于 其 他 神经 网 络 来 说 ， 每 个 神经 元 的 连接 数 与 较 小 哺乳 动物 
(如 小 鼠 ) 一 样 多 ， 这 种 情况 是 非常 普遍 的 。 甚 至 人 类 大 脑 每 个 神经 元 的 连接 数 也 没有 过 高 的 
数量 。 生 物 神 经 网 络 规模 来 自 Wikipedia (2015) 








1， 目 适应 线性 单元 CWidrow and Hoff, 1960) ; 2. 神经 认 知 机 (Fukushima, 1980) ; 3. 
GPU- 加 速 卷 积 网 络 (Chellapilla etal., 2006) ; 4. 深度 玻 尔 兹 曼 机 (Salakhutdinov and 
Hinton, 2009a) ; 5. 无 监督 卷 积 网 络 (Jarrett etal., 2009b) ; 6. GPU- 加 速 多 层 感 知 机 
(Ciresan etal., 2010) ; 7. 分 布 式 自 编 码 器 (Le etal., 2012) ; 8. Multi-GPU 卷 积 网 络 
(Krizhevsky etal. , 2012a) ; 9. COTS HPC 无 监督 卷 积 网 络 (Coates etal., 2013) ; 10. 
GoogLeNet (Szegedy etal. , 2014a) 
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首 。 这 种 增长 是 由 更 大 内 存 、 更 快 的 计算 机 和 更 大 的 可 用 数据 集 驱 动 
的 。 蝎 大 的 网 络 能 够 在 更 复 林 的 任务 中 实现 更 局 的 精度 。 这 种 趋势 看 起 
来 将 持续 数 十 年 。 除 非 有 能 为 迅速 扩展 新 扩 术 ， 人 否则 至 少 权 到 21 世 纪 50 
年 代 ， 人 人工 神经 网 络 才能 具备 与 人 脑 相 同 数量 级 的 神经 元 。 生 物 神经 元 
表示 的 功能 可 能 比 目 前 的 人 工 神经 元 所 表示 的 更 复杂 ， 因 此 生物 神经 网 
络 可 能 比 图 中 插 绘 的 甚至 要 更 大 。 





1985 2000 2015 


图 1.11 与 日 俱 增 的 神经 网 络 规模 。 上 自从 引入 隐藏 单元 ， 人 工 神 经 网 络 的 规模 大 约 每 2.4 年 翻 一 
倍 。 生 物 神 经 网 络 规模 来 自 Wikipedia (2015) 


1. 感知 机 (Rosenblatt; 1958, 1962) ; 2. 自 适应 线性 单元 (Widrow and Hoff, 1960) ; 3. 神 经 
认 知 机 (Fukushima, 1980) ; 4. 早 期 后 同 传 播 网 络 (Rumelhart etal., 1986b) ; 5. 用 于 语 首 识 
别 的 循环 神经 网 络 (Robinson and Fallside, 1991) ; 6. 用 于 语音 识别 的 多 层 感 知 机 (Bengio et al 
, 1991) ; 7. 均 匀 场 sigmoid 信 和 念 网 络 (Saul etal., 1996) ; 8. LeNet-5 (LeCun etal. ， 

1998c) ; 9. 回 声 状 态 网 络 (Jaeger and Haas, 2004) ; 10. 深 度 信 念 网 络 (Hinton etal. , 

2006a) ; 11. GPU- 加 速 卷 积 网 络 (Chellapilla etal., 2006) ; 12. 深 度 玻 尔 效 曼 机 
(Salakhutdinov and Hinton, 2009a) ; 13. GPU- 加 速 深度 信念 网 络 (Raina etal., 2009a) ; 14 
无 监督 卷 积 网 络 (Jarrett etal., 2009b) ; 15. GPU- 加 速 多 层 感知 机 (Ciresan etal., 2010) ; 
16. OMP-1 网 络 (Coates and Ng, 2011) ; 17. 分 布 式 目 编 码 器 (Le etal., 2012) ; 18. Multi- 
GPU 卷 积 网 络 (Krizhevsky etal., 2012a) ; 19. COTS HPC 无 监督 卷 积 网 络 (Coates etal. , 
2013) ; 20. GoogLeNet (Szegedy etal. , 2014a) 
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可 能 相当 大 ， 但 实际 上 和 它 比 相对 原始 的 有 有 椎 动物 《如 青蛙 ) 的 神经 系统 
IBY 


由 于 更 快 的 CPU、 通 用 GPU 的 出 现 〈 在 第 12.1.2 节 中 讨论 ) 、 更 快 的 网 

络 连 接 和 更 好 的 分 布 式 计算 的 软件 基础 设施 ， 模 型 规模 随 着 时 间 的 推移 
不 断 增加 是 深度 学 习 历 史 中 最 重要 的 趋势 之 一 。 人 们 普 遇 预计 这 种 趋势 
将 很 好 地 持续 到 未 来 。 


12.4 ”与日俱增 的 精度 、 复 林 度 和 对 现实 世界 的 


冲击 


20 世 纪 80 年 代 以 来 ， 深 度 学 习 提供 精确 识别 和 预测 的 能 力 一 二 在 提 噩 。 
而 且 ， 深 度 学 习 持续 成 功 地 应 用 于 越 来 越 广 泛 的 实际 问题 中 。 


最 早 的 深度 模型 航 用 来 识别 裁 勇 芭 凑 且 非 党 小 的 网 像 中 的 单个 对 象 
(Rumelhart et al. , 1986d) 。 此 后 ， 神 经 网 络 可 以 处 理 的 图 像 尺 寸 未 
渐 增 加 。 现 代 对 象 识 别 网 络 能 处 理 丰 军 的 高 分 状 座 照片 ， 并 且 不 需要 在 
被 识别 的 对 象 附近 进行 裁剪 (Krizhevsky et al. , 2012b) 。 类 似 地 ， 最 
早 的 网 络 只 能 识别 两 种 对 象 ( 或 在 菏 些 情况 下 ， 单 类 对 象 的 存在 与 

合 ) ， 而 这 些 现代 网 络 通 间 能 够 识别 至 少 1000 个 不 同类 别 的 对 象 。 对 象 
识别 中 最 大 的 比赛 是 每 年 举行 的 ImageNet 大 型 视 知 识别 挑战 
(ILSVRC)。 深 上 度 学 习 迅 速 岂 起 的 油 动 人 心 的 一 货 是 苍 积 网 络 第 一 炊 
大 幅 杖 得 这 一 挑战 ， 它 将 最 蜗 水 准 的 前 5 错误 率 从 26.1% 降 到 15.3% 
(Krizhevsky et al. , 2012b) ， 这 意味 着 该 疮 积 网 络 针 对 每 个 图 像 的 可 
能 类 别 生 成 一 个 顺序 列表 ， 除 了 15.3% 的 测试 样本 ， 其 他 测试 样本 的 正 
硝 类 标 都 出 现在 此 列表 中 的 前 5 项 里 。 此 后 ， 深 度 郑 积 网 络 连续 地 启 得 
这 些 比 赛 ， 稚 至 写作 本 书 时 ， 深 度 学 习 的 最 新 结果 将 这 个 比赛 中 的 前 5 
错误 率 降 到 了 3.6%， 如 图 1.12 所 示 。 
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图 1.12 日益 降低 的 错误 率 。 由 于 深 破 网络 达到 了 在 ImageNet 大 规模 视觉 识别 挑战 中 苋 争 所 必 
需 的 规模 ， 它 们 每 年 都 能 万 得 胜利 ， 并 且 产 生 越 来 越 低 的 错误 率 。 数 据 来 源 于 Russakovsky et al. 
(2014b) 和 He etal. (2015) 


深度 学 习 也 对 语音 识别 产生 了 巨大 影响 。 语 音 识 别 在 20 世 纪 90 年 代 得 到 
提高 后 ， 直 到 约 2000 年 都 俘 济 不 前 。 深 度 学 习 的 引入 (Dahl et al. , 


2010; Deng etal. , 2010b; Seide etal. , 2011; Hinton et al. , 2012a) 
使 得 语音 识别 错误 率 陡 然 下 降 ， 有 些 错 误 率 甚至 降低 了 一 半 。 我 们 将 在 
第 12.3 节 更 详细 地 探讨 这 个 历史 。 


深度 网 络 在 行人 检测 和 图 像 分 割 中 也 取得 了 引 人 注 目的 成 功 〈(Sermanet 
etal. , 2013; Fara-bet et al. , 2013; Couprie et al. , 2013) ， 并 且 在 交 
通 标志 分 类 上 取得 了 超越 人 类 的 表现 (Ciresan etal., 2012) 。 


在 帝 上 度 网 络 的 规模 和 精度 有 所 提高 的 同时 ， 它 们 可 以 解雇 的 任务 也 日 益 
复杂 。Goodfellow et al. (2014d) 表明 ， 神 经 网 络 可 以 学 习 输 出 摘 述 图 
像 的 整个 字符 序列 ， 而 不 是 仅仅 识别 单个 对 象 。 上 此前， 人们 普 过 认为 ， 

这 种 学 习 需 要 对 序列 中 的 单个 元 系 进 行 标 注 〈Gulcehre and Bengio， 

2013) 。 循 环 神经 网 络 ， 如 之 前 提 到 的 LSTM 序 列 模型 ， 现 在 用 于 对 订 
列 和 其 他 序列 之 间 的 关系 进行 建 模 ， 而 不 是 仅仅 固定 输入 之 间 的 关系 。 

这 种 序列 到 序列 的 学 习 似乎 引领 者 另 一 个 应 用 的 其 复 性 及 展 ， 即 机 需 翻 
详 (Sutskever etal., 2014; Bahdanau etal. 2015) 。 


这 种 复 森 性 日 蔡 增 加 的 趋势 已 将 其 推 同 逻辑 结论 ， 即 神经 图 灵机 
(Graves et al. , 2014) 的 引入 ， 它 能 和 学习 读 取 存储 单元 和 加 存储 单元 
写 入 任意 内 容 。 这 样 的 神经 网 络 可 以 从 期 望 行为 的 样本 中 学 习 人 简单 的 程 
序 。 例 如 ， 从 杂乱 和 排 好 序 的 样本 中 学 习 对 一 系列 数 进 行 排 序 。 这 种 目 
REDRESS REYNE, 但 原则 上 未 来 可 以 适用 于 几乎 所 有 的 任 
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人 类 操作 者 指导 的 情况 下 ， 通 过 试 错 来 学 习 执 行 任务 。DeepMind 表 

明 ， 基 于 深度 学 习 的 强化 学 习 系 统 能 够 学 会 寺 Atari 视 频 游戏 ， 并 在 多 种 
任务 中 可 与 人 类 匹敌 (Mnih et al. , 2015) 。 深 度 学 习 也 显著 改善 了 机 
器 人 强化 学 习 的 性 能 (Finn etal., 2015) 。 


许多 深度 学 习 应 用 都 是 高 利润 的 。 现 在 深度 学 习 被 许多 顶级 的 技术 公司 
使 用 ， 包 括 Google、Microsoft、Facebook、IBM、Baidu、Apple、 
Adobe、Netflix、NVIDIA 和 NEC 等 。 


深度 学 习 的 进步 也 严重 依赖 于 软件 基础 架构 的 进展 。 软 件 库 如 
Theano (Bergstra et al. , 2010a; Bastien et al. , 2012a) 、 


PyLearn2 (Goodfellow et al. , 2013e) ~ Torch (Collobert et al. , 
2011b) . DistBelief (Dean et al. , 2012) . Caffe (Jia, 2013) 、 
MXNet (Chen et al. , 2015) 和 Tensor-Flow (Abadi et al. , 2015) 都 能 
文 持 重要 的 研究 项 目 或 商业 产品 。 


深度 学 习 也 为 其 他 科学 做 出 了 贡献 。 用 于 对 象 识别 的 现代 卷 积 网 络 为 神 
经 科学 家 们 提供 了 可 以 研究 的 视 芝 处 理 模型 (DiCarlo，2013) . E 
学 习 也 为 处 理 海量 数据 以 及 在 科学 领域 做 出 有 效 的 预测 提供 了 非常 有 用 
的 工具 。 它 已 成 功 地 用 于 预测 分 子 如 何 相 互 作用 、 从 而 帮助 制药 公司 设 
计 新 的 药物 (Dahl et al. , 2014) ， 搜 索 亚 原子 粒子 (Baldi et al. , 
2014) ， 以 及 目 动 解析 用 于 构建 人 脑 三 维 图 的 显 做 锐 图 像 (Knowles- 
Barley etal., 2014) ZTR. RIRE ZARR E HIER 
来 越 多 的 科学 领域 中 。 


总 之 ， 深 度 学 习 是 机 融和 学 习 的 一 种 方法 。 在 过 去 儿 十 年 的 友 展 中 ， 它 大 
量 信和 鉴 了 我 们 关于 人 脑 、 统 计 学 和 应 用 数学 的 知识 。 近 年 来 ， 得 蔓 于 更 
强大 的 计算 机 、 更 大 的 数据 集 和 能 够 训练 更 深 网 络 的 拉 术 ， 深 度 竺 习 的 
普及 性 和 实用 性 都 有 了 极 大 的 友 展 。 未 来 几 年 ， 深 度 等 习 更 是 充满 了 进 
一 步 所 高 并 应 用 到 新 领域 的 挑 成 和 机 过 。 


第 1 部 分 “应 用 数学 与 机 禹 学 习 基 础 
本 书 这 一 部 分 将 介绍 理解 深度 学 习 所 需 的 基本 数学 概念 。 我 们 从 应 用 数 
学 的 一 般 概念 开始 ， 这 能 使 我 们 定义 拥有 许多 变量 的 函数 ， 找 到 这 些 函 
数 的 最 高 点 和 最 低 点 ， 并 量化 信念 度 。 
接着 ， 我 们 描述 机 器 学 习 的 基本 目标 ， 并 描述 如 何 实现 这 些 目标 。 我 们 


需要 指定 代表 菏 些 信念 的 模型 、 人 设计 衡量 这 些 信念 与 现实 对 应 程度 的 代 
价 函 数 以 及 使 用 训练 算法 最 小 化 这 个 代价 函数 。 

这 个 基本 框 染 是 广泛 多 样 的 机 占 学 习 和 宽 法 的 基础 ， 其 中 也 包括 非 深度 的 
机 大 学 习 方 法 。 在 本 书 的 后 续 革 节 ， 我 们 将 在 这 个 框架 下 开发 深度 学 习 
算法 。 


第 2 章 ”线性 代数 


线性 代数 作为 数学 的 一 个 分 文 ， 广泛 应 用 于 科学 和 工程 中 。 然 而 ， 因 广 
线性 代数 主要 是 面 癌 连续 数学 ， 而 非 离散 数学 ， 所 以 很 多 计算 机 科学 家 
很 少 接触 它 。 掌 握 好 线性 代数 对 于 理解 和 从 事 机 器 学 习 算 法 相关 工作 是 
IRAN, TORO TIRES ASAT A, FEF eR IT AAR AH 
之 前 ， 我 们 集中 探讨 一 些 必 备 的 线性 代数 知识 。 


如 果 你 已 经 很 熟悉 线性 代数 ， 那 么 可 以 轻松 地 跳 过 本 章 。 如 果 你 已 经 了 
解 这 些 概念 ， 但 是 需要 一 份 索引 表 来 回顾 一 些 重要 公式 ， 那 么 我 们 推 

r The Matrix Cookbook (Petersen and Pedersen, 2006) 。 如 果 你 没有 接 
触 过 线性 代数 ， 那 么 本 章 将 告诉 你 本 书 所 需 的 线性 代数 知识 ， 不 过 我 们 
仍然 强烈 建议 你 参考 其 他 专门 讲解 线性 代数 的 文献 ， 例 如 

Shilov (1977) 。 最 后 ， 本 章 上 略 去 了 很 多 重要 但 是 对 于 理解 深度 学 习 非 
必需 的 线性 代数 知识 。 


2.1 tri, (Ale. FORE A GK 
学 习 线 性 代数 ， 会 涉及 以 下 几 个 数学 概念: 


。 标 量 (scalar) : 一 个 标量 束 是 一 个 单独 的 数 ， 它 不 同 于 线性 代数 
中 研究 的 其 他 大 部 分 对 象 〈 通 彰 是 多 个 数 的 数组 ) 。 我 们 用 矢 体 表 
示 标 量 。 标 量 通 钊 被 同 予 小 写 的 变量 名 称 。 在 介绍 标量 时 ， 我 们 会 
明确 它们 是 哪 种 类 型 的 数 。 比 如 ， 在 定义 实数 标量 时 ， 我 们 可 能 会 
weg E IR RKR RRN RE”; 在 定义 目 然 数 标量 时 ， 我 们 
可 能 会 说 “ 令 几 E N ATR ICR HBL A”. 

e [als (vector): 一 个 回 量 是 一 列 数 。 这 些 数 是 有 序 排 列 的 。 通 过 
次 序 中 的 索引 ， 我 们 可 以 确定 每 个 单独 的 数 。 通 第 我 们 赋予 问 量 狂 
体 的 小 写 变 量 名 称 ， 比 如 x。 辣 量 中 的 元 系 可 以 退 过 币 肢 标的 斜体 
表示 。 问 量 x 的 第 一 个 元 系 是 x 1 > BSTC EX, FF. RIE 
会 注 明 存储 在 问 量 中 的 元 系 是 什么 类 型 的 。 如 果 每 个 元 系 都 属于 
IR » FFA Sant Ic, WAI TBE | yn Fa 
卡 儿 乘积 构成 的 集合 ， iA |RT o a 22 AW SEN I BOR 
IM, ETI ICR ARI MSS A A): 


(2.1) 





RITE DASE el VF eA A BEDS ae ce ZS I) AB ol EB AB 
标 。 


有 时 我 们 需要 索引 回 量 中 的 一 些 元 际 。 在 这 种 情况 下 ， 我 们 定义 一 
个 包含 这 些 元 系 索 引 的 集合 ， 然 后 将 该 集合 写 在 脚 标 处 。 比 如 ， 指 
定 X1、 X 3 AX ¢ ， 我 们 定义 集合 S={1， 3, 6}, 然后 写作 X s 。 我们 
用 符号 一 表示 集合 的 补 集中 的 索引 。 比 如 x _1 表示 X 中 除 x 1 外 的 所 
HIR, Xs 表示 x 中 除 x] 、Xx3、X6 外 所 有 元 又 构 成 的 同 量 。 

IERE (matrix) : 矩阵 是 一 个 二 维 数 组 ， 其 中 的 每 一 个 元 素 由 两 个 
索引 【而 非 一 个 ， 所 确定 。 我 们 通常 会 赋予 矩阵 粗 体 的 大 写 变 量 名 
称 ， 比 如 A 。 如 有 果 一 个 实数 窍 阵 高 度 为 n， 宽 上 度 为 nD0， 那 么 我 们 说 
= RPXN 。 我 们 在 表示 矩阵 中 的 元 素 时 ， 通 常 以 不 加 粗 
的 斜体 形式 使 用 其 名 称 ， 有 索引 用 喜 亏 间隔 。 比 如 ，A ii 1 表示 A 磊 
上 的 元 系 ，A ,表示 A 右 下 的 元 系 。 我 们 过 过 用 “: ”表示 水 平 坐 
标 ， 以 表示 垂直 坐标 i 中 的 所 有 元 素 。 比 如 ，A ; ， 表 示 A PRE 
坐标 让 的 一 横 排 元 素 。 这 也 被 称 为 A 的 第 i 行 Crow) 。 同 样 地 ， 
A. RI A 的 第 i 列 Ccolumn) 。 当 需要 明确 表示 和 矩阵 中 的 元 素 


时 ， 我 们 将 它们 写 在 用 方 括号 括 起 来 的 数组 中 ; 
a oP 

rs! Lo (2.2) 
Ag, A229 








AlN BQ i EE Me AIA TUN RS], TA HES C RR. FEA aL 
BR, Seek se M Rtn, TEAS rk FE BE EY Be EA PK DS M o 


比如 ，f( A );, Zan eR BCE A Eih EE BiT BIR 

e ike (tensor) : 在 菜 些 情况 下 ， 我 们 会 讨论 坐标 超过 两 维 的 数 
组 。 一 般 的 ， 一 个 数组 中 的 元 又 分 布 在 奢 干 维 坐 标的 规则 网 格 中 ， 
我 们 称 之 为 张 量 。 RIEA ZEA 来 表示 张 量 “A”。 ik at AN HH Aj 
标 为 (i,j,k)〉 的 元 素 记 作 A ijk o 


te’ (transpose) 是 惩 阵 的 重要 操作 之 一 。 算 阵 的 转 置 是 以 对 角 线 为 轴 
的 镜像 ， 这 条 从 左上 角 到 右 下 角 的 对 角 线 被 称 为 主 对 角 线 (main 
diagonal) 。 图 2.1 显 示 了 这 个 操作 。 我 们 将 矩阵 A 的 转 置 表示 为 A! 
， 和 定义 如 下 
(A')i 5 = Aji (2.3) 

同 量 可 以 看 作 只 有 一 列 的 矩阵 。 对 应 地 ， 同 量 的 转 置 可 以 看 作 只 有 一 行 
的 兴隆 。 有 时 ， 我 们 通过 将 回 量 元 系 作 为 行 矩 阵 写 在 文本 行 中 ， 然 后 使 
用 转 置 操作 将 其 变 为 标准 的 列 同 量 ， 来 定义 一 个 同 量 ， 比 如 


x = |ti, %, 23]! 


Ai, A» 4 As 
Aj 2 Ay» A3 » 











图 2.1 和 窍 阵 的 转 置 可 以 看 作 以 主 对 角 线 为 轴 的 一 个 镜像 

标量 可 以 看 作 只 有 一 个 元 素 的 窍 阵 。 因 此 ， 标 量 的 转 置 等 于 它 本 刁 ， 

da =a ° 

REFERENT, RATH EPS SE Oe. PA SEE E FT 
DLE TORAH, 比如 C=A +B, FHC =Aj, + Big 


yy ee AFB EAE SE, Be BIE EAE OE, BTR rs ep RS HE BES 
相 乘 或 相 加 ， 比如 D=a:B +c, 其 中 D ;;=a i Bij 十 Co 


在 深度 学 习 中 ， 我 们 也 使 用 一 些 不 那么 常规 的 人 符 写 。 我 们 允许 矩阵 和 同 
量 相 加 ， 产 生 另 一 个 矩阵 ，C =A + b， 其 中 Cj;;=A;;+b;。 换 言 
Z, HÆ b 和 和 矩阵 A 的 每 一 行 相 加 。 这 个 简写 方法 使 我 们 无 须 在 加 法 操 
作 前 定义 一 个 将 问 量 b 复制 到 每 一 行 而 生成 的 矩阵 。 这 种 隐 式 地 复制 癌 
量 b 到 很 多 位 置 的 方式 ， 称 为 广播 (broadcasting) 。 


2.2 424 All p se FH FE 


KEM eA ze Fa Me ty BR VE AANER A M B MERR 
只 (matrix product) ÆRE C o N JERE EX, RE A 
Bs Am AE ME BOAT AAS. WREE A WT em, ERE B 
的 形状 古 nxp， 那 么 矩阵 C 的 形状 是 mxp。 我 们 可 以 通过 将 两 个 或 多 个 
矩阵 并 列 放 置 以 书 与 矩阵 乘法 ， 例 如 


© 一 AB (2.4) 
具体 地 ， 访 乘法 操作 定义 为 
Ca = Y Air ia (2.5) 
k 


需要 注意 的 是 ， 两 个 矩阵 的 标准 乘积 不 是 指 两 个 矩阵 中 对 应 元 系 的 乘 
积 。 不 过 ， 那 样 的 矩阵 操作 确实 是 存在 的 ， 称 为 元 系 对 应 乘积 
Ath product) #%%Hadamard3@%2 (Hadamard product) , id 
为 i EN ` 


两 个 相同 维 数 的 同 量 x 和 y 的 点 积 (dot product) HAERE ERR 
L'Y 。 我 们 可 以 把 矩阵 乘积 C = AB 中 计算 C ij 的 步 又 看 作 A 的 第 i 行 
和 B 的 第 j 列 之 间 的 点 积 。 


算 阵 乘积 运算 有 许多 有 用 的 性 质 ， 从 而 使 窍 阵 的 数学 分 析 更 加 方便 。 比 
如 ， 和 矩阵 乘积 服从 分 配 律 : 


Ae C) = Ar. ag (2.6) 


和 矩阵 乘积 也 服从 结合 律 : 
A(BC) —(AB)C (2.7) 


«| 
Nei 


不 同 于 标量 乘积 ， 窍 阵 乘 积 并 不 满足 交换 律 〈 AB=BA 的 情况 并 非 总 是 
WE) 。 然 而 ， 两 个 同 量 的 后 积 满足 交换 律 : 


a gage (2.8) 
FE MEER Ae A a TH FI SU 
(AB)'=B'A' (2.9) 


利用 两 个 同 量 点 积 的 结果 是 标量 、 标 量 转 置 古 目击 的 事实 ， 我 们 可 以 证 
明 式 (2.8) : 


Z 4141 一 (ay) =y' z (2.10) 


由 于 本 书 的 重点 不 是 线性 代数 ， 我 们 并 不 想 展 示 窍 阵 乘 积 的 所 有 重要 性 
质 ， 但 读者 应 该 知 掉 窍 阵 乘积 还 有 很 多 有 用 的 性 质 。 


现在 我 们 已 经 知道 了 足够 多 的 线性 代数 符 写 ， 可 以 表达 下 列 线性 方程 
组 : 


Az =b (2.11) 


ai A = RX’ fe CER, & C R 是 一 个 已 知 向 

EE ie 是 一 个 我 们 要 求解 的 未 知 站 是 HE x 的 每 一 个 元 系 
X ; cata AERE A 的 每 一 行 和 b 中 对 应 的 元 素 构成 一 个 约束 。 我 们 
可 以 把 式 (2.11) 重 写 为 


A1:.T = by (2.12) 
A> .x = bz (2.13) 

(2.14) 
a a (2.15) 


或 者 ， 更 明确 地 ， 与 作 


Ay 1% + Arat + “= ntn = M (2.16) 
Asiti + Azara + -e+ Aontn = be (2.17) 
(2.18) 

Amit + Ame2t2 +--+ Åm. nEn = bm (2.19) 


矩阵 向 量 乘积 符号 为 这 种 形式 的 方程 提供 了 更 紧凑 的 表示 
2.3 ”单位 矩阵 和 逆 窍 阵 


Zr EIRATA T ROERE (matrix inversion) 的 强大 工具 。 对 于 大 多 
AFERE A ， 我 们 都 能 通过 矩阵 刻 解 术 地 求解 式 (2.11) 。 


ZA ee RITA 76 a BE FER = Cidentity matrix) HM 
。 任 意 回 量 和 单位 窍 阵 相 乘 ， 都 不 会 改变 。 E 
的 单位 年 阵 记 作 js PAE: ' aE zi ae 


ve eR" iEn (2.20) 


单位 矩阵 的 结构 很 简单 : 所 有 沙 主 对 角 线 的 元 素 都 是 1， 而 其 他 位 置 的 
所 有 元 素 都 是 0， 如 图 2.2 所 示 。 


1 U E 
0 1 0 
D U l 


图 2.2 ”单位 矩阵 的 一 个 样 例 : 这 是 T3 

KERE A 的 矩阵 逆 记 作 A 工 ， 其 定义 的 矩阵 满足 如 下 条 件 : 
A‘A=T,, (2.21) 

MÆRE NMEA BaP ROR AAS (2.11) : 


A — b (2.22) 
A ”Az=A-'b (2.23) 
I,2=A‘b (2.24) 
£ = Atb (2.25) 


当然 ， 这 取 诀 于 我 们 能 否 找到 一 个 逆 算 阵 A- 工 。 在 接 下 来 的 章节 中 ， 我 
们 会 讨论 道 和 矩阵 A 工 存在 的 条 件 。 


HDE RE A 1 存在 时 ， 有 几 种 不 同 的 算法 者 能 找到 它 的 朵 解 形式 。 理 论 
上 ， 和 相同 的 逆 矩 阵 可 用 于 多 次 求解 不 同 同 量 b 的 方程 。 然 而 ， 逆 窍 阵 A 
了 主要 是 作为 理论 工具 使 用 的 ， 并 不 会 在 大 多 数 软 件 应 用 程序 中 实际 使 
Ho KEANE R A 一 在 数字 计算 机 上 只 能 表现 出 有 限 的 精度 ， 有 效 
EHE b 的 算法 通 铅 可 以 得 到 更 狂 确 的 x 。 


2.4 线性 相关 和 生成 子 宇 间 


如 果 逆 矩阵 A 工 存在 ， 那 么 式 〈2.11) 肯定 对 于 每 一 个 向 量 b 恰好 存在 
一 个 解 。 但 是 ， 对 于 方程 组 而 言 ， 对 于 癌 量 b 的 某 些 值 ， 有 可 能 不 存在 
解 ， 或 者 存在 无 限 多 个 解 。 存 在 多 于 一 个 解 但 是 少 于 无 限 多 个 解 的 情况 
是 不 可 能 发 生 的 ， 因 为 如 果 x 和 y 都 是 某 方程 组 的 解 ， 则 


之 一 QZ 十 (1 一 Q)V (2.26) 
(其 中 oa 取 任意 实数 ) 也 是 该 方程 组 的 解 。 


为 了 分 析 方 程 有 多 少 个 解 ， 我 们 可 以 将 A 的 列 回 量 看 作 从 原 扣 
(origin) (WAERME) 出 及 的 不 同方 向 ， 确 定 有 多 少 种 方法 
可 以 到 达 疝 量 b 。 在 这 个 观点 下 ， 癌 量 x 中 的 每 个 元 系 表 示 我 们 应 该 沿 
看 这 些 方 同 走 多 还 ， 即 x ;表示 我 们 圾 要 沿 看 第 i 个 癌 量 的 方 同 走 多 远 : 


Mn aA, (2.27) 


1 


一 般 而 言 ， 这 种 操作 称 为 线性 组 合 (linear combination) >» ÆRE, 一 
组 癌 量 的 线性 组 合 ， 是 指 每 个 同 量 乘 以 对 应 标量 系数 之 后 的 和 和 ， 妈 


Sev (2.28) 


1 


一 组 癌 量 的 生成 子 空间 (span) 是 原始 同 量 线性 组 合 后 所 能 抵达 的 点 的 
集合 。 

确定 Ax=b 是 全 有 人 解 ， 相 当 于 确定 同 量 b eA A 列 癌 量 的 生成 子 空间 
中 。 这 个 特殊 的 生成 子 空间 被 称 为 和 的 列 空间 (column space) 或 者 A 
的 值 域 Crange) 。 


为 了 使 方程 Ax=b 对 于 任意 向 量 bB C R 都 存在 解 ， 我 们 要 求 A 
的 列 空 间 构成 整个 上 委 ?7 o mRR 中 的 某 个 点 不 在 A 的 列 空 间 
H, MAZAMA b 会 使 得 该 方程 没有 人 和解。 窍 阵 A 的 列 空间 是 整个 
JR’ 的 要 求 ， 意 味 着 A 至 少 有 m 列 ， 即 1 Sm. BM, A We 
间 的 维 数 会 小 于 m。 例 如 ， 假 设 A 是 一 个 3x2 的 算 阵 。 目 标 b 是 3 维 的 ， 

但 是 x 只 有 2 维 。 所 以 无 论 如 何 修改 x 的 值 ， 也 只 能 描绘 出 假 3 空间 中 
HZP. SHNS Eb 在 该 二 维 平 面 中 时 ， 访 方程 有 解 。 


KERN SN 仅 是 方程 对 每 一 点 都 有 解 的 必要 条 件 。 这 不 是 一 个 
充分 条 件 ， 因 为 有 些 列 向 量 可 能 是 元 余 的 。 假 设 有 一 个 了 2X2 中 的 矩 
阵 ， 它 的 两 个 列 向 量 是 相同 的 。 那 么 它 的 列 空间 和 它 的 一 个 列 向 量 作为 
矩阵 的 列 空间 是 一 样 的 。 换 言 之 ， 虽 然 该 矩阵 有 2 列 ， 但 是 它 的 列 空间 
仍然 只 是 一 条 线 ， 不 能 涵盖 整个 假 2 空间 。 


正式 地 说 ， 这 种 元 余 称 为 线性 相关 dinear dependence) 。 如 果 一 组 问 
量 中 的 任 最 一 个 同 量 都 不 能 表示 成 其 他 回 量 的 线性 组 合 ， 那 么 这 组 回 量 
称 为 线性 无 天 Clinearly independent) 。 如 果 某 个 同 量 是 一 组 同 量 中 某 
些 回 量 的 线性 组 合 ， 那 么 我 们 将 这 个 同 量 加 入 这 组 回 量 后 不 会 增加 这 组 
同 量 的 生成 子 空间 。 这 意味 看 ， 如 果 一 个 矩阵 的 列 空间 涵盖 整个 | 民 ? 
， 那 么 该 矩阵 必须 包含 至 少 一 组 m 个 线性 无 关 的 癌 量 。 这 是 式 〈2.11) 

对 于 每 一 个 同 量 b 的 取 值 都 有 解 的 充分 必要 条 件 。 值 得 注意 的 是 ， 这 个 
条 件 是 说 该 同 量 集 恰好 有 m 个 线性 无 天 的 列 回 量 ， 而 不 是 至 少 m 个 。 不 
存在 一 个 m 维 癌 量 的 集合 具有 多 于 m 个 彼此 线性 不 相关 的 列 问 量 ， 但 是 
一 个 有 多 于 m 个 列 同 量 的 矩阵 有 可 能 拥有 不 止 一 个 大 小 为 m 的 线性 无 关 


HER. 


HERE He ME yw, ERAT RANE (2.11) 对 于 每 一 个 b 信人 至 多 有 一 
个 解 。 为 此 ， 我 们 需要 确保 该 算 阵 至 多 有 m 个 列 同 量 。 人 否则 ， 广 方程 会 
BS LE“ 

RECAI, RRA FE ME il ce —-S 77 BE Csquare) ， 即 m=n， 并 且 
Par 7 De) St A ee BE CSS © A7 ERTER A BEER a EA 


(singular) 。 


如 条 矩阵 A Axe -NIERE ee PT NT ME TT EIA fe 
ffo TELE BIAS BEE H EME K OR AE 


AAD AIE, RANGA WE SEA Fe. RITE DAE SC HB MG SR 
AA '=I (2.20) 

对 于 方 阵 而 言 ， 它 的 左 记 和 右 逆 是 相等 的 。 

2.5 way 


AIS Se ii 2 TIN AZ). FED La AP, BUNA EA KA 
2X (norm) 的 函数 来 衡量 网 量 大小。 形式 上 ，L2 wae Mon F 


izli, = (Ze ) | (2.30) 
其 中 p E IR, p> 1. 


Wat CHL P WRO ce PR BUSES ea. EOE Ri, [Al 
量 x Uae NS x 的 距离 。 更 严格 地 说 ， 范 数 是 满足 下 列 性 
质 的 任意 函数 : 


。 f(x 十 y) : f(a) + fly) (三 角 不 等 式 (triangle 
inequalit 
“Va ER, f(az) = lal f(a). 


当 p=2 时 ，L“ 范 数 称 为 欧 几 里 得 范 数 (Euclidean norm) 。 它 表示 从 原 
RACH ACSI IA Se x 确定 的 点 的 欧 几 里 得 距离 。L“ 苑 数 在 机 器 学 习 中 出 现 
得 十 分 频繁 ， 经 常 简化 表示 汶 || 并 || ， 略 去 了 下 标 2。 平 方 L 2 范 数 也 经 党 
用 来 衡量 向 量 的 大 小 ， 可 以 简单 地 通过 点 积 j op 计算 。 








平方 L? 范 数 在 数学 和 计算 上 都 比 L? 范 数 本身 更 方便 。 例 如 ， 平 方 L? 范 
数 对 x 中 每 个 元 素 的 导数 只 取决 于 对 应 的 元 素 ， 而 L 2 范 数 对 每 个 元 素 
的 导数 和 整个 向 量 相关 。 但 是 在 很 多 情况 下 ， 平 方 L 2 范 数 也 可 能 不 受 
欢迎 ， 因 为 它 在 原点 附近 增长 得 十 分 缓慢 。 在 某 些 机 器 学 习 应 用 中 ， 区 
分 恰好 是 零 的 元 素 和 非 零 但 值 很 小 的 元 素 是 很 重要 的 。 在 这 些 情况 下 ， 
我 们 转 而 使 用 在 各 个 位 置 斜 率 相 同 ， 同 时 保持 简单 的 数学 形式 的 函数 : 
L1 范 数 。L1 范 数 可 以 简化 如 下 


lelh = do lea (2.31) 
SN Late J fe el ESS 7c eZ TA A Ze SSE EN, A eR ALL 
范 数 。 每 当 x 中 某 个 元 素 从 0 增加 村 ， 对 应 的 L1 范 数 也 会 增加 所 。 
有 时 候 我 们 会 统计 癌 量 中 非 零 元 系 的 个 数 来 衡量 疝 量 的 大 小 。 有 些 作者 
将 这 种 函数 称 为 二 ” 范 数 ”"， 但 是 这 个 术语 在 数学 意义 上 是 不 对 的 。 问 
量 的 非 零 元 系 的 数目 不 是 范 数 ， 因 为 对 同 量 缩放 a 倍 不 会 改变 该 癌 量 非 


零 元 素 的 数目 。 因 此 ，L | ， 范 数 经 常 作为 表示 非 零 元 素数 目的 蔡 代 函 
Be 


FIP EE ED LAS I PHU BOEL © 苑 数 ， 也 委 称 为 最 大 苑 数 
(max norm) 。 这 个 苑 数 表 示 同 量 中 具有 最 大 幅 值 的 元 素 的 绝对 值 : 


|x ||. = max |z;| (2.32) 
l 


A ee ERAT pe EA ES a BED. ÆRE P, aa IAA 
是 使 用 Frobenius 范 数 (Frobenius norm) ， 即 


(2.33) 





其 类 似 于 向 量 的 L2 范 数 。 
两 个 向 量 的 点 积 可 以 用 范 数 来 表示 ， 具 体 如 下 

x’ y = lz |lylly cos? (2.34) 
其 中 6 表示 x 和 ?之 间 的 夹 角 。 
2.6 Fe PRIS AY AY HE BE A [i] E 
有 些 特殊 类 型 的 矩阵 和 向 量 是 特别 有 用 的 。 


对 角 窃 阵 (diagonal matrix) RARE MARAE ATES oR, HEME. 
Mes. ÉRE, Wp D 是 对 角 窍 阵 ， 当 且 仅 当 对 于 所 有 的 
LFTs ites 一 0 ，。 我 们 已 经 看 到 过 一 个 对 角 和 矩阵 HEE, H 
对 角 元 又 全 部 是 1。 我 们 用 diag(v) 表 示 对 角 元 系 由 问 量 v 中 元 又 给 定 的 一 
个 对 角 方 阵 。 对 角 窍 阵 受 到 关注 的 部 分 原因 是 对 角 和 矩阵 的 滋 法 计算 很 高 
效 。 计 算 乘 法 diag(V)x， 我 们 只 需要 将 x 中 的 每 个 元 素 Xi 放大 vi; fe M 
= diag(v)x 一 VOT o HAIAN ME TEE HH Ta RY 
YY FA ME EE, “SAMA ACR A ESE, ERP A 
F» diag(v)~* = diag({1/v1,--- lpae|") 。 在 很 多 情况 下 ， 我 
们 可 以 根据 任意 窍 阵 导出 一 些 通用 的 机 需 学 习 算 法 ， 但 通过 将 一 些 窍 阵 
Ai 
eee 


FFAE BTA OT FA HERE AB eT BE. TAT A FRE OY BB EO A FEE. JE 
77 BEAST £8 FRE ERE, ABT GA A A ey ih EE MI RT 
对 于 一 个 长 方形 对 角 算 阵 D WMA, FE Dx 会 涉及 x PRPICAN SA 
放 ， 如 果 D SRAM, WAAR ese se, oR D 
Fe PE i AY FEE, AL CESAR Ea — ER o 
PK Csymmetric) PEER BA A CASE, BY 

A=A'! (2.35) 


当 菏 些 不 依赖 参数 顺序 的 双 参 数 函 数 生成 元 系 时 ， 对 称 窍 阵 经 常会 出 


Bl. PUN, WR A 是 一 个 距离 度量 矩阵 ， A RAN AIBA, H 

从 A ij A ji , 因为 距离 函数 是 对 称 的 。 

FAA [a] Cunit vector) 是 具有 单位 范 数 (unit norm) 的 回 量 ， 即 
lz|, = 1 (2.36) 

如 果 z | y 一 0, ABA las x 和 问 量 y 互相 正 交 Corthogonal) > WWR 

两 个 向 量 都 有 非 零 范 数 ， 那 么 这 两 个 向 量 之 间 的 夹 角 是 90。。 ER 

中 ， 至 多 有 n 个 范 数 非 零 回 量 互相 正 交 。 如 果 这 些 回 量 不 但 互相 正 交 ， 

而 且 范 数 都 为 1， 那 么 我 们 称 它 们 是 标准 正 交 (orthonormal) 。 


IEAC7E BR (orthogonal matrix) 指 行 癌 量 和 列 同 量 是 分 别 标准 正 交 的 方 
Be, BY 


A'A=AA' =I (2.37) 
A'=A' (2.38) 


TEAC FE MEAS BISSETT EP) © RA] ETE st EEEE 
x. GRE WN, IEZSTERENY TT lee IE IEZS AY, WERE IES 
AJo XIT 4TA ee Bk 7] [a eee OR TE 22 (8 JN ee HE TE 20 AERE, RAXIMA 
专 有 术语 。 

2.7 ”特征 分 解 

许多 数学 对 象 可 以 通过 将 它们 分 解 成 多 个 组 成 部 分 或 者 找到 它们 的 一 些 
属性 来 更 好 地 理解 。 这 些 属性 是 通用 的 ， 而 不 是 由 我 们 选择 表示 它们 的 
方式 所 产生 的 。 

例如 ， 整 数 可 以 分 解 为 质 因 数 。 我 们 可 以 用 十 进 制 或 二 进 制 等 不 同方 式 
表示 整数 12， 但 是 12=2x3x3 永 远 是 对 的 。 从 这 个 表示 中 我 们 可 以 获得 一 
些 有 用 的 信息 ， 比 如 12 不 能 被 5 整除 ， 或 者 12 的 倍数 可 以 被 3 整除 。 


正如 我 们 可 以 通过 分 解 质 因 数 来 肥 现 整数 的 一 些 内 在 性 质 ， 我 们 也 可 以 


ED ANT 2) AERE ERR IAE RER ZR IRAH JE HR BY AS Be FY BB) BC THE IE -o 


特征 分 解 Ceigendecomposition) 是 使 用 最 广 的 窍 阵 分 解 之 一 ， 即 我 们 
将 宅 阵 分 解 成 一 组 特征 同 量 和 特征 值 。 


方 阵 A 的 特征 问 量 (eigenvector) 是 指 与 A 相 滋 后 相当 于 对 访问 量 进 
行 缩放 的 非 零 同 量 v: 


Av = Xv (2.39) 


其 中 标量 和 称 为 这 个 特征 回 量 对 应 的 特征 值 Ceigenvalue) . “类 似 地 ， 
我 们 也 可 以 定义 左 特征 同 量 Cleft eigenvector) vA = hy! 
但 是 通 间 我 们 更 关注 右 特征 同 量 (right eigenvector) ) 。 


如 果 vy Æ A REHE, HAAAT AEU AY De) E 
sv (s E€ R, s £ 0) 也 是 A 的 特征 向 量 。 此 外 ，sv 和 v 有 相同 的 
特征 值 。 基 于 这 个 原因 ， 通 贡 我 们 只 若 碟 单位 特征 网 量 。 


假设 矩阵 A 有 n 个 线性 无 关 的 特征 向 量 {vy (了) ,... CO, Oe eRe 

征 值 { 入 1， E E R o BMA ERE TIE [a SEM PE, ER RE FI 

是 一 个 特征 向 量 : V=[y).... en) 。 类 似 地 ， 我 们 也 可 以 将 特 

征 值 连接 成 一 个 网 量 A = [A1,…… An] 。 因 此 A 的 特征 分 解 
(eigendecomposition〉 可 以 记 作 


A = Vdiag(A) VT! (2.40) 


我 们 已 经 看 到 了 构建 具有 特定 特征 值 和 特征 同 量 的 矩阵 ， 能 够 使 我 们 在 
目标 方 同 上 延伸 空间 。 然 而 ， 我 们 也 利 间 和 布 望 将 窍 阵 分 解 
(decompose) 成 特征 值 和 特征 辣 量 。 这 样 可 以 帮助 我 们 分 析 和 矩阵 的 特 
定性 质 ， 束 像 质 因 数 分 解 有 助 于 我 们 理解 整数 。 


不 是 每 一 个 是 阵 和 都 可 以 分 解 成 特征 值 和 特征 回 量 。 在 茶 些 情况 下 ， 特 征 
分 解 他 在， 但 是 会 处 及 复数 而 非 实 数 。 泣 运 的 是 ， 在 本 书 中 ， 我 们 通 帅 
iin BAO} WA Te OP AE EME HERH, BES SENTRA REAA DA 
分 解 成 实 特征 问 量 和 实 特征 值 : 


A= QAQ" (2.41) 
其 中 Q 是 A 的 特征 向 量 组 成 的 正 交 算 阵 ， A 是 对 角 和 矩阵 。 特 征 值 A ，， 
对 应 的 特征 向 量 是 矩阵 Q 的 第 i 列 ， 记 作 Q ， ，。 因 为 Q IESE, 
我 们 可 以 将 A 看 作 沿 方向 vO SEA 倍 的 空间 ， 如 图 2.3 所 示 。 


来 法 前 来 法 后 


Tı 





“25 9 a o 1 3 s 2s ce ot 0 1 2 3 
To To 
图 2.3 BEIE EARE EAR. E EARE EFC, EE, E 
BE A 有 两 个 标准 正 交 的 特征 向 量 ， 对 应 特征 值 为 M1 的 v © DRE AA o 的 v() 。 
E) 我 们 画 出 了 所 有 单位 向 量 y C R 的 集合 ， 构 成 一 个 单位 圆 。〈 右 ) 我 们 画 出 了 所 有 
Au 点 的 集合 。 通 过 观察 A 拉 伸 单位 圆 的 方式 ， 我 们 可 以 看 到 它 将 v 包 方 向 的 空间 拉 伸 了 和 i 倍 





虽然 任意 一 个 实 对 称 窃 阵 A 都 有 特征 分 解 ， 但 是 特征 分 解 可 能 并 不 唯 
一 。 如 来 两 个 或 多 个 特征 癌 量 拥 有 相同 的 特征 值 ， 那 么 在 由 这 些 特 征 问 
量 产 生 的 生成 子 空间 中 ， 任 童 一 组 正 交 问 量 都 是 该 特征 值 对 应 的 特征 问 
量 。 因 此 ， 我 们 可 以 等 价 地 从 这 些 特 征 癌 量 中 构成 Q@ TEA IN. R 
惯例 ， 我 们 通常 控 降 序 排列 和 的 元 系 。 在 该 约定 下 ， 特 征 分 解 唯一 ， 妆 
日 仅 当 所 有 的 特征 值 都 是 唯一 的 。 


算 阵 的 特征 分 解 给 了 我 们 很 多 关于 滤 隆 的 有 用 信息 。 算 阵 是 奇 弄 的 ， 妆 
且 仪 当 含 有 和 零 符 征 值 。 实 对 称 滤 阵 的 特征 分 解 也 可 以 用 于 优化 三 次 方程 
f(z) =a! Azx， 其 中 限制 | 人 2 上。 二 1] 。 当 x 等 于 A 的 某 个 特征 向 
EH, PREX MAREE. EREI TF AA EKARA 
IHE; mw MEFE - 


所 有 特征 值 都 是 正 数 的 矩阵 称 为 正定 (positive definite) ; 所 有 特征 值 


都 是 非 负 数 的 矩阵 称 为 半 正 定 (positive semidefinite) > FIt, MA 
特征 值 都 是 负数 的 窍 阵 称 为 负 定 (negative definite) ; 所 有 特征 值 都 是 
非 正 数 的 矩阵 称 为 半 负 定 (negative semidefinite) 。 半 正定 矩阵 受到 关 
注 是 因为 它们 你 证 Vz. TI År =f 。 上 此外， 正定 窍 阵 还 保证 


z'Axr-0>2-—0: 
2.8 Aye He 


FEB2.77, RITR S a ABE op AE SPE [A se PIE LA F 

一 种 分 解 窍 阵 的 方法 ， 称 为 奇异 值 分 解 (singular value decomposition, 
SVD) , ARE RE OD AREA ay FH A (singular vector) 和 奇异 值 
(singular value) 。 通 过 奇异 值 分 解 ， 我 们 会 得 到 一 些 与 特征 分 解 相 同 
关 型 的 信息 。 然 而 ， 奇 异 人 分 解 有 更 广泛 的 应 用 。 每 个 实数 十 阵 都 有 一 
个 奇 开 人 分解 ， 但 不 一 定 都 有 特征 分 解 。 例 如 ， 非 方 阵 的 窃 阵 没 有 特征 
分 解 ， 这 时 我 们 只 能 使 用 奇异 全 分 解 。 


回想 一 下 ， 我 们 使 用 特征 分 解 去 分 析 趋 阵 人 时 ， 得 到 特征 同 量 构成 的 窃 
BE V 和 特征 值 构成 的 问 量 人 ， 我 们 可 以 重新 将 A 写作 


A = Vdiag(A) VT! (2.42) 


WENERA, JAAR BITE A 分 解 成 三 个 矩阵 的 乘 


A=UDV' (2.43) 


假设 A 是 一 个 mxn 的 矩阵 ， 那 么 U 是 一 个 mxm 的 矩阵 ，D 是 一 个 mxn 
的 窍 阵 ， 和 是 一 个 nxn 和 矩阵 。 


这 些 窍 阵 中 的 每 一 个 经 定义 后 都 拥有 特殊 的 结构 。 年 阵 U 和 V 都 定义 
为 正 交 窍 阵 ， 而 矩阵 D TE SCART SAFER. HERR, FEM D 不 一 定 是 方 
BE 


HAERE D WAREWARE A HAE (singular value) . 
EE U 的 列 同 量 称 为 左 奇 异 回 量 deft singular vector) ， 和 矩阵 V 的 列 


HERATA (right singular vector) 。 


Sc 上， 我 们 可 以 用 与 A 相关 的 特征 分 解 去 解释 A 的 奇异 值 分 解 。 A 
th) Ac ay $F [a] (eft singular vector) fz A A! 的 特征 向 量 。 A 的 右 奇 
异 问 量 (right singular vector) 是 4 A 的 特征 同 量 。A 的 非 零 奇异 值 
是 4 4 特征 值 的 平方 根 ， 同时 也 是 4 4 特征 值 的 平方 根 。 


SVD 最 有 用 的 一 个 性 质 可 能 是 拓展 矩阵 求 逆 到 非 方 矩 阵 上 。 我 们 将 在 下 
一 节 中 探讨 ， 


2.9 Moore-Penrose} ivi 


IFIED. KEERA EX. BEE PAAR, RAIE 
ATIE RE A 的 左 道 B 来 求解 线性 方程 : 


等 式 两 边 左 乘 左 逆 B 后 ， 我 们 得 到 
x= By (2.45) 


AGF al RAF Sh, FTA RB CA wit SE AR A 映射 到 B 
UREE A 的 行 数 大 于 列 数 ， 那 么 上 述 方程 可 能 没有 解 。 如 果 和 矩阵 A 
的 行 数 小 于 列 数 ， 那 么 上 述 和 矩阵 可 能 有 多 个 解 。 


Moore-Penrose 伪 这 (Moore-Penrose pseudoinverse) 使 我 们 在 这 类 问题 
ERIE EMER. RE A WTAE A 


At = lim(A’ A O T A (2.46) 
计算 伪 逆 的 实际 算法 没有 基于 这 个 定义 ， 而 是 使 用 下 面 的 公式 
At=VD*tU' (2.47) 


LH, FEM UL D 和 V ERER A at Hei or fe Ja fo PFE XERE 
D H(A D* 是 其 非 等 元 系 取 倒 数 之 后 髓 转 置 得 到 有 的 。 


HAERE A 的 列 数 多 于 行 数 时 ， 使 用 伪 逆 求解 线性 方程 是 众多 可 能 解法 中 
的 一 种 。 特 别 地 ，z 二 Aty 是 方程 所 有 可 行 解 中 欧 几 里 得 范 数 
| 区 上, 最 小 的 一 个 。 


HAERE A 的 行 数 多 于 列 数 时 ， 可 能 没有 解 。 在 这 种 情况 下 ， 通 过 伪 逆 得 
到 的 x 使 得 Ax 和 y 的 欧 几 里 得 距离 | Ax 一 yllo 最小。 


2.10 wise 
Wh zs SEA E A ee MET FA AH A: 

Tr(A) = > Ajj. (2.48) 
迹 运 算 因 为 很 多 原因 而 有 用 。 若 不 使 用 求 和 符号 ， 有 些 和 矩阵 运算 很 难 描 
述 ， 而 退 过 矩阵 乘法 和 迹 运 算 符 号 可 以 清楚 地 表示 。 例 如 ， 迹 运算 提供 
了 另 一 种 描述 和 窍 阵 Frobaenius 范 数 的 方式 : 

[Alle = VTY(AA') (2.49) 


用 迹 运算 表示 表达 式 ， 我 们 可 以 使 用 很 多 有 用 的 等 式 巧 妙 地 处 理 表达 
式 。 例 如 ， 迹 运算 在 转 置 运算 下 是 不 变 的 : 

Tr(A) = Tr(A') (2.50) 
多 个 窍 阵 相 乘 得 到 的 方 阵 的 迹 ， 和 将 这 些 窍 阵 中 的 最 后 一 个 挪 到 最 前 面 


之 后 相 乘 的 迹 是 相同 的 。 当 然 ， 我 们 需要 考虑 挪动 之 后 所 阵 乘积 依然 定 
义 民 好 : 


Tr(ABC) = Tr(C AB) = Tr(BCA) (2.51) 
或 者 更 一 般 地 ， 
n n—1 | 
Tet) | Fe = Toe | | Pe) (2.52) 
i=l i=l 


BEIE PR Js HEM HR AA FP EIA RISEN ZB AR AAS 


AE, PEN, Bike A E pran, KB E pea , R 
们 可 以 得 到 


Tr(A.B) = Tr(.BA) (2.53) 
REA B ‘= Rmxm F|] BA E Rrxn, 
另 一 个 有 用 的 事实 是 标量 在 迹 运 算 后 仍然 是 它 目 己 : a=Tr(a)。 


2.11 行列 式 


行列 式 ， 记 作 det( A )， 是 一 个 将 方 阵 A PRON BISCAY RAL. FT ISS 
于 和 矩阵 特征 值 的 乘积 。 行 列 式 的 绝对 值 可 以 用 来 衡量 矩阵 参与 矩阵 乘法 
后 空间 扩大 或 者 缩小 了 多 少 。 如 果 行 列 式 古 0， 那 么 空间 至少 沿 痢 菏 一 
维 完全 收缩 了 ， 使 其 失去 了 所 有 的 体积 : 如果 行列 式 是 1， 那 么 这 个 转 
换 保 持 空 间 体积 不 变 。 


2.12 il; 主 成 分 分 析 


主 成 分 分 析 (principal components analysis, PC A ) 是 一 个 简单 的 机 器 
学 习 算 法 ， 可 以 通过 基础 的 线性 代数 知识 推导 。 


LER” 空间 中 有 m 个 点 {Zz ，... ,2(")} ， 我 们 希望 对 这 些 点 
进行 有 损 证 缩 。 有 损 压缩 表示 我 们 使 用 更 少 的 内 存 ， 但 损失 一 些 精度 去 
存储 这 些 点 。 我 们 希望 损失 的 精度 尽 可 能 少 。 


编码 这 些 点 的 一 种 方式 是 用 低 维 表示 。 对 于 每 个 点 (ie Rr: 28 
一 个 对 应 的 编码 向 量 c(i) c Ri 。 如 果 ] 比 n 小 ， re ele 
少 的 内 存 来 存储 原来 和 数据 -我 们 希望 找到 一 个 编码 函数 ， 根 据 输入 返 
器 编码 ，f( x )=c; 我 们 也 希望 找到 一 个 解码 函数 ， 给 定编 码 重 构 输入 ， 

xsg(f(x ))。 


PCA 由 我 们 选择 的 解码 函数 而 定 。 具 体 来 讲 ， 为 了 简化 解码 器 ， 我 们 使 
用 和 矩 阵 乘 法 将 编码 映射 回 | 由 ， 即 g (=De, AED E RX: 是 
定义 解码 的 矩阵 。 


到 目前 为 止 ， 所 手 述 的 问题 可 能 会 有 多 个 解 。 因 为 如 条 我 们 投 比 例 地 缩 
小 所 有 后 对 应 的 编码 问 量 c; ， 那 么 只 需 按 比例 放大 D .;， 即 可 你 持 结 果 
不 变 。 为 了 使 问题 有 唯一 解 ， 我 们 限制 D PPA ele PA 
AE 


计算 这 个 解码 器 的 最 优 编码 可 能 是 一 个 困难 的 问题 。 为 了 使 编码 问题 简 
单一 些 ，PCA 限 制 D 的 列 向 量 彼 此 正 交 注意， 除非 lj=n， 否 则 严格 意 
X ED FÆ DNE) 。 


为 了 将 这 个 基本 想法 变 为 我 们 能 够 实现 的 算法 ， 首 先 我 们 需要 明确 如 何 
根据 每 一 个 输入 x 得 到 一 个 最 优 编 码 c* 。 一 种 方法 是 最 小 化 原始 输入 问 
量 x 和 重 构 向 量 g(c* ) 之 间 的 距离 。 我 们 使 用 范 数 来 衡量 它们 之 间 的 距 
离 。 在 PCA 算 法 中 ， 我 们 使 用 L“ 范 数 


= arg min jae — gS), (2.54) 
我 们 可 以 用 平方 站 Te BU RL * ea, HAARAA AY ic Ee) 
值 。 这 是 因为 L“ 范 数 是 非 负 的 ， 并 且 平 方 运 算 在 非 负 值 上 是 单调 递增 
的 。 
eo” = are min |æ 一 galoli (2.55) 
该 最 小 化 函数 可 以 简化 成 
(x — g(c))' (x — g(e)) (2.56) 
( 式 (2.30) 中 L“ 范 数 的 定义 ) 


T 


=a'a—a2'g(c)—g(c)'x+ 9(c)'g(c) (2.57) 


=m s — 2z" gle) + gle) ale) (2.58) 


(因为 标量 g(c) r 的 转 置 等 于 自己 ) 。 
因为 第 一 项 mm T oe 不 依赖 于 c， 所 以 我 们 可 以 忽略 它 ， 得 到 如 下 的 优化 


H ËR: 


c* = argmin — 2x ' g(c) + gle)' g(c) (2.59) 


更 进一步 ， 代 入 ga 的 定义 : 


c* =argmin—2a2'Dce+c!D'De (2.60) 


G 


= arg min — 2z De + c' Ic (2.61) 


(是 阵 也 的 正 交 性 和 单位 范 数 约束 ) 


—=argmin—22'De+c'c (2.62) 
E 


RATE LET H Bee GAR IP RREA TS a A RREA 
W WES AASTT) 。 


V.(-22'De+c!'c) =0 (2.63) 
~2D'x+2c=0 (2.64) 
c=Di'z (2.65) 


这 使 得 算法 很 高 效 : 最 优 编 色 x JA i Bh ~~“ A ERARE. A S 
Fah Pale, RATE H Sis BRI BC 


f(z)=D'« (2.66) 
进一步 使 用 矩阵 乘法 ， 我 们 也 可 以 定义 PCA 重 构 操 作 : 
ey =u = DD" a (2.67) 


接 下 来 ， 我 们 需要 挑选 编码 矩阵 D 。 要 做 到 这 一 点 ， 先 来 回顾 最 小 化 
输入 和 重 构 之 间 L“ 距离 的 这 个 想法 。 因 为 用 相同 的 矩阵 D 对 所 有 点 进 
行 解码 ， 我 们 不 能 再 孤立 地 看 待 每 个 点 。 有 反之， 我 们 必须 最 小 化 所 有 维 
数 和 所 有 点 上 的 误差 窍 阵 的 Frobenius 苑 数 : 


5 
D* = arg min i tiy) subject to D' D =T; (2.68) 
D 





为 了 推导 用 于 寻求 D ”的 算法 ， 我 们 首先 考虑 1=1 的 情况 。 在 这 种 情况 
下 ，DD 是 一 个 单一 向 量 d 。 将 式 (2.67) RAs (2.68) , WAD Xd 
， 问 题 何 化 为 


2 
a = aremin X je — Tid subject to ||d||, = 1 (2.69) 
d 3 2 
P 





述 公式 是 直接 代入 得 到 的 ， 但 不 是 表述 上 最 美观 的 方式 。 在 上 述 公式 
我 们 将 标量 J pli) 放 在 向 量 d 的 右边 。 将 该 标量 放 在 左边 的 写 


EAS. Tre Be i SF 


2 
。 Ta 
d“ = arg min X |z® —d zdl 
d 2 
1 





subject to ||d||, = 1 (2.70) 


RE. She Pips ee SAE SAAS, Bate Ay VA E 


9 
d” = arg min X |z® 一 zOTdd| 
d 2 
F 





subject to ||d||, = 1 (2.71) 


读者 应 该 对 这 些 重 排 写法 慢 慢 熟悉 起 来 。 
此 时 ， 使 用 单一 生 阵 来 重 述 问题 ， 比 将 问题 写成 求 和 形式 更 有 攻 助 。 这 


ey LAB IN TT Y o ince A HY DF et HE a M1 EB, 
C ROPAR, KEX = 2 ， 原 问题 可 以 重新 表述 为 


d* = arg min |x m XdadT|| subject to d'd =1 (2.72) 
d 
暂时 不 考虑 约束 ， 我 们 可 以 将 Frobenius 范 数 简 化 成 下 面 的 形式 : 


9 
= xaa’ | (2.73) 
F 








arg min 
d 
T r P 
= arg min Tr ((x — Xdd ) (x — Xdd )) (2.74) 
d 


(IÈ (2.49) ) 


— arg min Tr (x7 x eT wee” — aa XTX + da'X'Xdd‘) (2.75) 
d 
= atemin Te! XY THX waa T T- tad! we) + aa! x waa") (2.76) 
d 


= ag mi —Tr(X'Xdd')—Tr(dd' X'X)+Tr(dd' X' Xdd') (2.77) 
d 
(因为 与 d 无 天 的 项 不 影响 arg min) 


— argmin —2Tr(X'Xdd')+Tr(dd' X'Xdd') (2.78) 
d 


CAVA TEA CAR aR zs EHP Re HE BE AY JIT AS 2 ng GR, BOS (2.52) 所 
不 ) 


= argmin —2Tr(X'Xdd')+Tr(X'Xdd'dd') (2.79) 
(再 次 使 用 上 述 性 质 ) 
此 时 ， 我 们 再 来 考虑 约束 条 件 


argmin — 2Tr(X'Xdd')+Ir(X'Xdd'dd')subject to d'd=1 (2.80) 
d 
= argmin — WİNX Xda") + T(x! ead) subject to d'd=1 (2.81) 
d 
(因为 约束 条 件 ) 
i 3 Boe ir 7 m Fe : E sa > l 
= arg min — Tr(X Xdd ) subject tod d= 1 (2.82) 
d 
—- 0 下 4 ig a ] T b_i D OF 
= arg max Tr(X Xdd ) subject tod d= 1 (2.83) 
d 
TT wt nti! icc a i 
=argmax rad X Xd) subject tod d=1 (2.84) 
d 


A gh bearers 征 分 解 来 求解 。 上 有 具体 来 讲 ， 最 优 的 ”qd 是 
X| X BEARER KIRE E 


以 上 推导 特定 于 1]=1 的 情况 ， 仅 得 到 了 第 一 个 主 成 分 。 更 一 般 地 ， 当 我 
IEE 得 得 到 主 成 分 的 基 时 ， FEM D 由 前 1 个 最 大 的 特征 值 对 应 的 特征 向 
量 组 成 。 这 个 结论 可 以 通过 归纳 法 证 明 ， 我 们 建议 将 此 证 明 作 为 练习 。 


线性 代数 是 理解 深 破 学习 所 必须 掌握 的 基础 数学 学 科 之 一 。 为 一 门 在 机 


器 学 习 中 无 处 不 在 的 重要 数学 学 科 是 概率 论 ， 我 们 将 在 下 一 章 探 讨 。 
PIE ”概率 与 信息 论 
本 章 讨 论 概率 论 和 信息 论 。 


概率 论 是 用 于 表示 不 确定 性 声明 的 数学 框架 。 它 不 仅 提 供 了 量化 不 确定 
性 的 方法 ， 也 提供 了 用 于 导出 新 的 不 确定 性 声明 Cstatement) 的 公理 。 
在 人 工 智 能 领域 ， 概 率 论 主要 有 两 种 用 途 : 首先 ， 概 率 法 则 告诉 我 们 Ai 
系统 如 何 推理 ， 据 此 我 们 设计 一 些 算法 来 计算 或 者 佑 算 由 概 鞭 论 导 出 的 
表达 式 ; 其 次 ， 可 以 用 概率 和 统计 从 理论 上 分 析 我 们 提出 的 AI 系统 的 行 


概率 论 是 众多 科学 学 科 和 工程 学 科 的 基本 工具 。 之 所 以 讲述 这 章 的 斥 
容 ， 古 为 了 确保 那些 背景 侦 软 件 工程 而 较 少 接触 概率 论 的 读者 也 可 以 理 
解 本 书 的 内 容 。 


概率 论 使 我 们 能 够 提出 不 确定 的 声明 以 及 在 不 确定 性 存在 的 情况 下 进行 
推理 ， 而 信息 论 使 我 们 能 够 量化 概率 分 布 中 的 不 确定 性 总 量 。 


如 果 你 已 经 对 概率 论 和 信息 论 很 熟悉 了 ， 那 么 除了 第 3.14 节 ， 本 章 其 余 
内 容 你 都 可 以 跳 过 。 而 在 第 3.14 市 中 ， 我 们 会 介绍 用 来 挡 述 机 磊 学 习 中 
结构 化 概率 模型 的 图 。 即 使 你 对 这 些 主题 没有 任何 的 先 验 知识 ， 本 章 对 
于 完成 深度 学 习 的 研究 项 目 来 说 也 已 经 足够 。 尽 管 如 此 ， 我 们 还 是 建议 
读者 能 够 参考 其 他 一 些 和 额外 的 资料 ， 例 如 Jaynes (2003) 。 


3.1 为 什么 要 使 用 概率 


计算 机 科学 的 许多 分 支 处 理 的 实体 大 部 分 都 是 完全 确定 且 必 然 的 。 程 序 
员 通常 可 以 安全 地 假定 CPU 将 完美 地 执行 每 条 机 器 指令 。 虽 然 硬件 错误 
确实 会 发 生 ， 但 它们 非常 罕见， 以 至 于 大 部 分 软件 应 用 在 设计 时 并 不 需 
要 考虑 这 些 因素 的 影响 。 鉴 于 许多 计算 机 科学 家 和 软件 工程 师 在 一 个 相 
对 干净 和 确定 的 环境 中 工作 ， 机 器 学 习 对 于 概率 论 的 大 量 使 用 是 很 令 人 
吃惊 的 。 


这 和 古 因 为 机 融和 学 习 通 各 必须 处 理 不 确定 量 ， 有 时 也 可 能 需要 处 理 随 机 


( 非 确 定性 的 ) 量 。 不 确定 性 和 随机 性 可 能 来 目 多 个 方面 。 全 少 从 20 世 
纪 80 年 代 开 始 ， 研 究 人 员 束 对 使 用 概率 论 来 量化 不 确定 性 所 出 了 令 人 信 
服 的 论据 。 这 里 给 出 的 许多 论据 都 是 根据 Pearl (1988) 的 工作 总 结 或 局 
及 得 到 的 。 


几乎 所 有 活动 部 需要 一 些 在 不 确定 性 存在 的 情况 下 进行 推理 的 能 力 。 事 
SEE, BRS ABLE BCE MALIN Bese aH, BOAR EV GER Pt ee FA 
JARRERARI FR ERRE. 


不 确定 性 有 3 种 可 能 的 来 源 : 


C1) 被 建 模 系统 内 在 的 随机 性 。 例 如 ， 六 多 数量 于 力学 的 解释 ， 痢 将 
亚 原子 粒子 的 动力 学 描述 为 概 京 的。 我们 还 可 以 创建 一 些 假设 具有 随机 
动态 的 理论 情境 ， 例 如 一 个 假想 的 纸牌 游戏 ， 在 这 个 游戏 中 ， 我 们 假设 
纸牌 被 真正 泥 洗 成 了 随机 顺序 。 


(2) 个 完全 观测 。 即 使 是 硝 定 的 系统 ， 当 我 们 不 能 观测 到 所 有 驱动 系 

统 行为 的 变量 时 ， 访 系统 也 会 呈现 随机 性 。 例 如 ， 在 Monty Halia 
中 ， 一 个 游戏 节目 的 参与 者 补 要求 在 3 个 门 之 间 选 择 ， 并 且 会 局 得 放置 

在 选中 门 后 的 炎 品 。 其 中 两 忆 门 通 癌 山手， 第 3 书 门 通 加 一 辆 汽车 。 选 

A 但 是 站 在 选手 的 角度 ， 结 条 是 不 
TAE HY o 


(3) ATER ER. SREK EAE a OM fis ART, 
ERPE A oe BORA BY TY AS EE PD, AB EAT BIE — 
ALAA AY DAEA Ss UL Se Jed elk — PS RT RN Lo FE XP REE NT BY 
PRY DL EAT TOU, SR a A EY ce YZ TE, ABS eS 
UAT TRE ES Lae A TCI A ET BT As 因为 每 个 对 象 都 可 能 
AF" BML EY EY A BEREM — AH 1 o 


在 很 多 情况 下 ， 使 用 一 些 简单 而 不 确定 的 规则 要 比 复杂 而 确定 的 规则 更 
为 实用 ， 即 使 真正 的 规则 是 确定 的 并 且 我 们 建 模 的 系统 可 以 足够 精确 地 
容纳 复杂 的 规则 。 例 如 , “多 数 乌 儿 都 会 妃 这 个 徐 音 的 规则 描述 起 来 很 
答 单 并 且 使 用 广泛 ， 而 正式 的 规则 “除了 那些 还 没 学 会 飞翔 的 幼 
乌 ， 因 为 生病 或 是 受伤 而 失去 了 飞 瓶 能 力 的 岛 ， 包 括 食 火 乌 
(cassowary) ~ 3é® (ostrich) 、 几 维 (kiwi， 一 种 新 西 兰 产 的 无 中 
乌 ) 等 不 会 飞 的 乌 类 ...... 以 外 ， 鸟 儿 会 飞 ”， 很 难 应 用 、 维 护 和 沟通 ， 





即使 经 过 这 么 多 的 努力 ， 这 个 规则 还 是 很 脆弱 而 且 容 易 失 效 。 


尺 官 我 们 的 确 需 要 一 种 用 以 对 不 确定 性 进行 表示 和 推理 的 方法 ， 但 是 概 
率 伦 并 不 能 明显 地 提供 我 们 在 人 工 入 能 领域 需要 的 所 有 工具 。 概 率 论 最 
倪 的 发 展 是 为 了 分 析 事 件 发 生 的 频 京 。 我 们 可 以 很 容易 地 看 出 概 识 论 ， 
对 于 像 在 扑 殉 牌 洲 戏 中 抽出 一 手 特 定 的 牌 这 种 事件 的 研究 中 ， 古 如 何 使 
用 的 。 这 类 事件 往往 是 可 以 重复 的 。 当 我 们 说 一 个 结果 发 生 的 概率 为 
p MRR ARENT RE KSE Aa, THAR FD 无 限 次 ， 有 p 的 比 
例 可 能 会 叶 任 这 样 的 结果 。 这 种 推理 似乎 并 不 立即 适用 于 那些 不 可 重复 
的 命题 。 如 果 一 个 医生 诊断 了 病人 ， 并 说 该 病人 患 流 感 的 概 鞭 为 40%， 
这 征 味 看 非 弟 不 同 的 事情 一 我 们 既 不 能 让 病人 有 无 穷 多 的 副本 ， 也 没 
有 任何 理由 去 相信 病人 的 个 同 副 本 在 具有 不 同 的 潜在 条 件 下 表现 出 相同 
WET. FERIA AR BIE, BOTA ROR SON FA EE 
(degree of belief) ， 其 中 1 表示 非常 肯定 病人 患 有 沈 感 ， 而 0 表示 非 各 
肯定 病人 没有 患 流感 。 前 面 那 种 概 座 直接 与 事件 发 生 的 频 京 相 联 系 ， 锌 
称 为 频率 派 概 率 (frequentist probability) ; 而 后 者 涉及 确定 性 水 平 ， 
AKA A UL PTE Ze (Bayesian probability) 。 


KRY MOE PEAY Hs VA HES, WOR BAT ZR PR Ee BO PE 
M ABA W AE 1K SPE Jo ES HE — — IZ YS ee D RS A SR R 
视 为 等 同 的 。 例 如 ， 如 末 我 们 要 在 扑 殉 牌 游戏 中 根据 玩家 手 上 的 牌 计算 
他 能 够 获胜 的 概率 ， 那 么 可 以 使 用 和 医生 情境 完全 相同 的 公式 ， 即 依据 
病人 的 菏 些 症 状 计 算 他 是 合 患 病 的 概率 。 为 什么 一 小 组 第 识 性 假设 缠 伟 
本 必须 是 相同 的 公理 控制 两 种 概率 ? 更 多 的 细节 参见 

Ramsey (1926) . 


MEK FY DAB EA AOS AE HE FR GE SL 
的 规则 ， 可 以 和 在 给 定 东 些 命题 是 真 或 假 的 假设 下 ， 判 断 万 外 一 些 命题 是 
真 的 还 是 假 的 。 概 紊 论据 供 了 一 套 形式 化 的 规则 ， 可 以 在 给 定 一 些 命题 
的 似 然后 ， 计 算 其 他 命题 为 真 的 似 然 。 


3.2 ”随机 变量 
随机 变量 (random variable) 是 可 以 随机 地 取 不 同 值 的 变量 。 我 们 通 帝 


用 无 格式 字体 (plain typeface) 中 的 小 写字 母 来 表示 随机 变量 本 身 ， 而 
用 手写 体 中 的 小 与 字母 来 表示 随机 变量 能 够 取 到 的 值 。 例 如 ，X , Mx » 





祖 是 随机 变量 x 可 能 的 取 值 。 对 于 回 量 值 变 量 ， 我 们 会 将 随机 变量 写成 x 
， 它 的 一 个 可 能 取 值 为 x 。 融 其 本 身 而 言 ， 一 个 随机 变量 只 是 对 可 能 的 
状态 的 搬 述 ; 它 必 须 伴 随 痢 一 个 概率 分 布 来 指定 每 个 状态 的 可 能 性 。 


随机 变量 可 以 是 离散 的 或 者 连续 的 。 离 散 随机 变量 拥有 有 限 或 者 可 数 无 
限 多 的 状态 。 注 意 : 这 些 状 态 个 一定 非 要 是 整数 ， 它 们 也 可 能 只 是 一 些 


被 命名 的 状态 而 没有 数值 。 连 续 随 机 变量 伴随 着 实数 值 
3.3 ”概率 分 布 


概率 分 布 (probability distribution〉 用 来 描述 随机 变量 或 一 艇 随机 变量 
在 每 一 个 可 能 取 到 的 状态 的 可 能 性 大 小 。 我 们 搞 述 概 认 分 布 的 方式 取决 
于 随机 变量 是 离散 的 还 是 连续 的 。 


3.3.1 ”离散 型 变量 和 概率 质量 困 数 


离散 型 变量 的 概 计 分 布 可 以 用 概 深 质量 函数 (probability mass 
function, PMF) 电 一 来 描述 。 我 们 通 销 用 大 写字 母 P 来 表示 概率 质量 函 
数 。 通 章 每 一 个 随机 变量 都 会 有 一 个 不 同 的 概率 质量 函数 ， 并 且 访 者 必 
须根 据 随 机 变量 来 推 师 所 使 用 的 PMF， 而 不 是 根据 函数 的 名 称 来 推断 ， 
例如 ，P(x) 通 党 和 P(y) 个 一 样 。 


概率 质量 函数 将 随机 变量 能 够 取得 的 每 个 状态 映射 到 随机 变量 取得 访 状 
人 态 的 概率 。x=x 的 概率 用 P(x) 来 表示 ， 概 认为 1 表示 Xx=x 古 确定 的 ， 概 率 
为 0 表示 x=x 是 不 可 能 发 生 的 。 有 时 为 了 使 得 PMF 的 使 用 不 相互 混淆 ， 我 
们 会 明确 写 出 随机 变量 的 名 称 : P(x=x)。 有 时 我 们 会 先 定义 一 个 随机 变 
量 ， 然 后 用 ~ 符号 来 说 明 它 订 循 的 分 布 : x~P(x)。 


概 认 质量 孔 数 可 以 同时 作用 于 多 个 随机 变量 。 这 种 多 个 变量 的 概率 分 布 
被 称 为 联合 概率 分 布 (joint probability distribution) > P(x=x,y=y) K ZR 
x=X 利 y=y 同 时 发 生 的 概率 。 我 们 也 可 以 简写 为 P(x,y)。 


如 果 一 个 函数 P 是 随机 变量 x 的 PMF， 必 须 满 足下 面 这 几 个 条 件 : 


。P 有 的 定义 域 必须 是 x 所 有 可 能 状态 有 的 集合 。 
e Yx E X.O < P(x) <1 .不 可 能 发 生 的 事件 概率 为 0， 并 且 


不 存在 比 这 概率 更 低 的 状态 。 类 似 地 ， 能 够 确 你 一定 发 生 的 事件 概 
率 为 1， 而 且 不 存在 比 这 概率 更 高 的 状态 。 

e ocx P(x) =1 > 我 们 把 这 条 性 质 称 之 为 归 一 化 的 
(normalized) 。 如 果 没 有 这 条 性 质 ， 当 我 们 计算 很 多 事件 其 中 之 
一 发 生 的 概率 时 ， 可 能 会 得 到 大 于 1 的 概率 。 


例如 ， 考 虑 一 个 离散 型 随机 变量 x 有 个 不 同 的 状态 。 我 们 可 以 假设 x 是 
均匀 分 布 Cuniform distribution) 的 〈 也 束 是 将 它 的 每 个 状态 视 为 等 可 
能 的 ) ， 退 过 将 它 的 PMF 设 为 


= = > (3.1) 


MPP ATA TAB I © RITE UA EXW AE EIR BCA BS S E BR CES 
件 。 因 为 k 电 一 个 正 整 数 ， ee EIER. RITE RY A H 


a 
LF 


YP i= & “a (3.2) 


i 


因此 分 布 也 满足 归 一 化 条 件 。 


3.3.2 ”连续 型 变量 和 概率 密度 函数 


当 研 究 的 对 象 是 连续 型 随机 变量 时 ， 我 们 用 概 识 密度 函数 (probability 
density function, P DF) 而 不 是 概率 质量 函数 来 插 述 它 的 概 京 分布 。 如 
果 一 个 函数 p 是 概 座 密 度 函 数 ， 必 须 满足 下 面 这 几 个 条 件 : 


。 pp 的 定义 域 必 aii 状态 的 集合 。 
e Vx E X, p(x) 之 0. 注意 ,我 们 并 不 要 求 p(X) < 1. 
。 | p(x) )dz = JT 


概率 密度 函数 P(x) 并 没有 年 接 对 特定 的 状态 给 出 概率 ， 相 对 的 ， 它 给 出 
本 洛 在 面积 为 6x 的 无 限 小 的 区 域内 的 概率 为 P(x)6x。 


我 们 可 以 对 概率 密度 函数 求 积 分 来 获得 点 集 的 真实 概率 质量 。 特 别 是 ， 


x 落 在 集合 S 中 的 概率 可 以 通过 PCoO 对 这 个 集合 求 积分 来 得 到 。 在 单 变 
量 的 例子 中 ，x 沙 在 区 间 [a，b] 的 概率 是 pi de 


为 了 给 出 一 个 连续 型 随机 变量 的 PDF 的 例子 ， 我 们 可 以 考虑 实数 区 间 上 
的 均匀 分 布 。 我 们 可 以 使 用 函数 uCxab)， 其 中 a 和 b 是 区 间 的 端点 且 满 足 
b>as F5“ ”表示 “以 什么 为 参数 ”， 我 们 把 x 作为 函数 的 日 变量 ，a 和 b 
作为 定义 函数 的 参数 ， 为 了 确保 区 间 外 没有 概率 ， 我 们 对 所 有 的 

x ¢ [a,b], & u(x;a,b) = 0 o Œ La, b] A, A 


u(x; E FE. b) — 7 1 o HUGH, eA RIE. 5 
= 
外 ， 它 的 积 分 为 1 我 们 通常 用 x~U(a,b) 表 示 x 在 La, b] 上 是 均匀 分 布 
的 。 


3.4 边缘 概率 


有 时， 我 们 知道 了 一 组 变量 的 联合 概率 分 布 ， 但 想 要 了 解 其 中 一 个 子 集 
的 概率 分 布 。 这 种 定义 在 子 集 上 的 概率 分 布 被 称 为 边 绿 概率 分 布 


(marginal probability distribution) 。 


例如 ， 假 设 有 离 z 获 型 随机 变量 x 和 y， 并 且 我 们 知道 P(x,y)。 可 以 依据 下 
面 的 求 和 法 则 (sum rule) 来 计算 P(x): 


Va € x, P(x =B, P= 8y =p) (3.3) 





SAE” HY BRR TF IE ea SPO) I EME 
AK STE BEAT EAN BI E FIRRA TA) AY v2 BG Pd SAY, OY 
网 格 中 的 每 行 求 和 是 很 目 然 的 事情 ， 然 后 将 求 和 的 结果 P(x) 写 在 每 行 右 
边 的 纸 的 边缘 处 。 
对 于 连续 型 变量 ， 我 们 需要 用 积分 人 符 代 求 和 : 

p(z) = | rway (3.4) 


3.5 KUM 


在 很 多 情况 下 ， 我 们 感 兴趣 的 起 东 个 事件 在 给 定 其 他 事件 发 生 时 出 现 的 
概率 。 这 种 概率 叫 作 条 件 概 率 。 我 们 将 给 定 x=x， 人 六 = — s 件 概率 记 
为 P(y=y | x=x)。 这 个 条 件 概 座 可 以 通过 下 面 的 公式 计算 


Ply =y,X=2) 
Ps =E) 


FWE R TEP(x=x) > OR AE ML RTI AS BE TE ZB FE TE 7K ENE RE 
的 事件 上 的 条 件 概 率 。 


这 里 需要 注意 的 是 ， 不 要 把 条 件 概 京 和 计算 当 末 用 某 个 动作 后 会 友 生 什 
么 相 混 涌 。 假 定 某 个 人 说 德语 ， 那 么 他 是 德国 人 的 条 件 概率 是 非常 高 
的 ， 但 是 如 果 随 机 选择 的 一 个 人 会 说 德语 ， 他 的 国籍 不 会 因此 而 改变 。 
计算 一 个 行动 的 后 果 航 称 为 干预 查询 (intervention query) . PMA W 
属于 因果 模型 (causal modeling) 的 和 范畴， 我 们 不 会 在 本 书 中 讨论 。 


3.6 条件 概 深 的 链 式 法 则 
任何 多 维 随机 变量 的 联合 概率 分 布 ， 都 可 以 分 解 成 只 有 一 个 变量 的 条 件 
概率 相 乘 的 形式 : 


后 (3.6) 


这 个 规则 被 称 为 概率 的 链 式 法 则 (chain rule) 或 者 乘法 法 则 (product 
rule) 。 它 可 以 直接 从 式 (3.5) 条 件 概 率 的 定义 中 得 到 。 例 如 ， 使 用 两 
次 定义 可 以 得 到 


P(y=y|x=2) = (3.5) 





Pabel = Jal belie) 
Pie = Pib| ete) 
Pabe) = Pi(a| Berb | €)Ple) 





3.7 ”独立 性 和 条 件 独 立 性 
两 个 随机 变量 x 和 y， 如 果 它 们 的 概率 分 布 可 以 表示 成 两 个 因子 的 乘积 开 


式 ， 并 且 一 个 因子 只 包含 x， 另 一 个 因 了 于 只 包含 y， 我 们 残 称 这 两 个 随机 
变量 是 相互 独立 的 (independent) : 


VT E€ X,y E y, p(x = x,y = y) = p(x = 7)p(y = y) (3.7) 


WRR Fx Ally HAR PB oo ABT FZ BE PL ARa A S EAR FZ 
TK, ABA IK PAS ELAS Bex Aly FE 25 KE BEAL AS ee ZI ee RF IY 


(conditionally independent) : 


一 | 一 | (3.8) 


我 们 可 以 采用 一 种 简化 形式 来 表示 独立 性 和 条 件 独立 性 : x]y 表 示 x 和 y 
相互 独立 ，xL 上 y | z 表 示 x 和 y 在 给 定 z 时 条 件 独立 。 


3.8 WE., AAMT A 
函数 f( x ) 天 于 某 分 布 P(x) 的 期 望 Cexpectation) 或 者 期 望 值 (expected 
value) 是 指 ， 当 x 由 P 产 生 ，f 作 用 于 x 时 ，f( x ) 的 平均 值 。 对 于 离散 型 随 
机 变量 ， 这 可 以 通过 求 和 得 到 

Eeli] = Y P(x) f(z) (3.9) 
对 于 连续 型 随机 变量 ， 可 以 通过 求 积 分 得 到 

Ws CR = EOLO (3.10) 


当 概 率 分 布 在 上 下 文中 指明 时 ， 我 们 可 以 只 写 出 期 望 作 用 的 随机 变量 的 
名 称 来 进行 简化 ， 例 如 屯 x| f(ar)| ”。 如 果 期 望 作用 的 随机 变量 也 很 明 
确 ， 我 们 可 以 完全 不 写 脚 标 ， 就 像 也 | f(x) 。 默 认 地 ， 我 们 假设 也 | | 
表示 对 方 括号 内 的 所 有 随机 变量 的 值 求 平 均 。 类 似 地 ， 当 没有 歧义 时 ， 

我 们 还 可 以 省 略 方 括号 。 

期 望 是 线性 的 ， 例 如 ， 


Elaf (x) + 6g(x)| = aE,|f(x)] + GEx|g(x)| (SLL 


其 中 a 和 和 B 不 依赖 于 x。 


Wize (variance) Æp SRT KK EE MR TET OREN, GE 
ALAS Bx) EA RU EME KIA: 


Var(f(x)) =E [CF Ce) — E[f(x)])7] (3.12) 


当 方 差 很 小 时 ，f( x MATE RR BEBE CKE. JAEN 
根 被 称 为 标准 友 (standard deviation) 。 


tA (covariance) 在 某 种 意义 上 给 出 了 两 个 变量 线性 相关 性 的 强 虐 
以 及 这 些 变量 的 尺度 : 


Cov( f(x), 9(y)) = El(f(x) — El f(~))) (gy) — Elg(y)))) (3.13) 


DTT ZEA Ze ER RA, WIRE ERA, HEENA EE 
ASEAN Ric. WRB EIEN, ASAD AP F EH 
得 相对 较 大 的 值 。 如 果 协 方 过 是 负 的 ， 那 么 其 中 一 个 变量 倾 同 于 取得 相 
对 较 大 的 值 的 同时 ， 男 一 个 变量 倾 同 于 取得 相对 较 小 的 值 ， 有 反之 亦 然 。 

其 他 的 衡量 指标 如 相关 系数 ”(correlation) 将 每 个 变量 的 页 献 归 一 化 ， 

为 了 只 衡量 变量 的 相关 性 而 不 受 各 个 变量 尺度 大 小 的 影 啊 。 


协 方 寺 和 相关 性 是 有 联系 的 ， 但 实际 上 有 是 不 同 的 概念 。 它 们 和 是 有 联系 

的 : 如 条 两 个 变量 相互 独立 ， 那 么 它们 的 协 方 兰 为 零 ; 如果 两 个 变量 的 
协 方 过 不 为 零 ， 那 么 它们 一 定 是 相关 的 。 然 而 ， 独 立 性 叉 是 和 协 方 关 完 
全 不 同 的 性 质 。 两 个 变量 如 末 协 方 天 为 和 零 ， 它 们 之 间 一 定 没 有 线性 天 

Ro MALE ce COS Oy Ze WY BORE an, AVA PEER SESS TEER 
Ro BIDS E KM, BERAR DAZ wT HEN. BON, BERII 
首先 从 区 间 L-1, 1] 上 的 均匀 分 布 中 采样 出 一 个 实数 xX， 然 后 对 一 个 随 


机 变量 s 进 行 采样 。 syd 的 概率 值 为 1， 否 则 为 -1。 我 们 可 以 通过 令 


Vy=SX 来 生成 一 个 随机 变量 y。 显 然 ，X 和 y 不 是 相互 独立 的 ， 因 为 x 完 全 决 
定 了 y 的 尺度 。 然 而 ，Cov(Cxy)=0。 


随机 问 量 ar E c R TL 的 协 方 差 窍 阵 (covariance matrix) 是 一 个 nxn 的 
FER, 3¢ 


Oriy = Covi, 35) (3.14) 


协 方 差 矩 阵 的 对 角 元 是 方差 : 
Cov(x;,x;) = Var(x;) (3.15) 
3.9 ”第 用 概率 分 布 
许多 简单 的 概率 分 布 在 机 器 学 习 的 众多 领域 中 都 是 有 用 的 。 
3.9.1 Bernoullii 分 布 
Bernoulli 分 布 (Bernoulli distribution) 是 单个 二 值 随机 变量 的 分 布 。 它 


由 单个 参数 gE LO, 1] 控制 ，q 给 出 了 随机 变量 等 于 1 的 概率 。 它 具有 
如 下 的 一 些 性 质 。 


e Ai E (3.16) 

P(x =0)=1-¢ (3.17) 
P(x =z) =¢7(1-¢)'* (3.18) 
局 | 区 | = ¢ (3.19) 

Vary (x) = (1 — ¢) (3.20) 


3.9.2 Multinoullit; 7 


Multinoulli 分 布 (multinoulli distribution) 或 者 范畴 分 布 Ccategorical 
distribution) 是 指 在 共有 k 个 不 同 状态 的 单个 离散 型 随机 变量 上 的 分 布 ， 
其 中 k 是 一 个 有 限 值 。 包 Multinoulli 分 布 由 向 量 pE [0，1] “1 参数 化 ， 
其 中 每 一 个 分 量 p ; 表示 第 i 个 状态 的 概率 。 最 后 的 第 k 个 状态 的 概 认 可 以 
通过 ] — 1! p 给 出 。 注 意 我 们 必须 限制 了 p <1 。Multinoulli 分 布 
经 常用 来 表示 对 和 象 分 类 的 分 布 ， 所 以 我 们 很 少 假设 状态 1 具有 数值 1 之 类 
的 。 因 些 ， 我 们 通 第 不 需要 去 计算 Multinoulli 分 布 的 随机 变量 的 期 望 和 
Bernoulli 分 布 和 Multinoulli 分 布 足够 用 来 摘 述 在 它们 领域 内 的 任意 分 

布 。 它 们 能 够 描述 这 些 分 布 ， 不 是 因为 它们 特别 强大 ， 而 是 因为 它们 的 
领域 很 涂 单 。 它 们 可 以 对 那些 能 够 将 所 有 的 状态 进行 枚 举 的 离散 型 随机 


变量 进行 建 模 。 当 处 理 的 是 连续 型 随机 变量 时 ， 会 有 个 可 数 无 限 多 的 状 
态 ， 所 以 任何 通过 少量 参数 搞 述 的 概率 分 布 都 必须 在 分 布 上 加 以 严格 的 
限制 。 


3.9.3 ”高 斯 分 布 


空 数 上 最 常用 的 分 布 束 是 正 态 分 布 (normal distribution) ， 也 称 为 高 斯 
分 布 (Gaussian dis-tribution) : 


: -E 1 ; | 
N(x; u, 0o?) = pe) exp =k 一 n)? ) (S21) 


图 3.1 夯 出 了 正 态 分 布 的 概率 密度 函数 。 
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图 3.1 ES. ESA N(x; u, 02) BUI GERR LTE, KPF OERA 


由 P 给 出 ， 峰 的 宽度 受 a 控 制 。 在 这 个 示例 中 ， 我 们 展示 的 是 标准 正 态 分 布 (standard normal 
distribution) ， 其 中 h=0，a=1 


正 态 分 布 由 两 个 参数 控制 ，J4 ER 和 oce (0, ce) 。 参 数 h 给 出 了 中 
心 峰值 的 坐标 ， 这 也 是 分 布 的 均值 ， 区 [xX] = J。 分 布 的 标准 差 用 o 表 
R JAH 表示。 

当 我 们 要 对 概率 密度 函数 求 值 时 ， 需 要 对 o 平 方 并 且 取 倒数 。 当 我 们 需 
要 经 常 对 不 同 参数 下 的 概率 密度 函数 求 值 时 ， 一 种 更 高 效 的 参数 化 分 布 


的 方式 是 使 用 参数 PE(0,oo) 来 控制 分 布 的 精度 (precision) (CBA ANY 
倒数 ) : 






N (x: T. a = 
(ee, 0”) 3 


二 exp (5 (0 一 n)? ) (3.22) 

RAG AE ASO} 78 FEAR & MH RRE SSE SIT POR SRS 
某 个 实数 上 分 布 的 先 验 知识 而 不 知道 该 选择 怎样 的 形式 时 ， 正 态 分 布 是 
默认 的 比较 好 的 选择 ， 其 中 有 两 个 原因 。 


第 一 ， 我 们 想 要 建 檬 的 很 多 分 布 的 真实 情况 是 比较 接近 正 态 分 布 的 。 中 
ORIRE (central limit theorem) 说 明 很 多 独立 随机 变量 的 和 近似 服 
从 正 态 分 布 。 这 意味 着 在 实际 中 ， 很 多 复杂 系统 都 可 以 被 成 功 地 建 模 成 
正 态 分 布 的 噪声 ， 即 使 系统 可 以 极 分 解 成 一 些 更 绪 构 化 的 部 分 。 


第 二 ， 在 具有 相同 方 甜 的 所 有 可 能 的 概率 分 布 中 ， 正 态 分 布 在 实数 上 具 
有 最 大 的 不 确定 性 。 因 此 ， 我 们 可 以 认为 正 态 分 布 是 对 模型 加 入 的 先 验 
知识 量 最 少 的 分 布 。 充 分 利用 和 证 明 这 个 想法 需要 更 多 的 数学 工具 ， 我 
们 推迟 到 第 19.4.2 节 进行 讲解 。 


正 态 分 布 可 以 推广 到 IR” 25H], OAL BARRA & ZE IE AS a) 7 
(multivariate normal dis-tribution〉”。 它 的 参数 是 一 个 正定 对 称 和 矩阵 ¥: 





NA i, Ft = , exp -ie = m) (3:23) 


1 
(27)" det (%) 


参数 仍然 表示 分 布 的 均值 ， 只 不 过 现在 是 同 量 值 。 参 数 > 给 出 了 分 布 的 
DAA. AAS ATLA, Sal OR HABA PA 
28 TE RE RAE ARKEN, WAER AS ce — MR a RL BBL 
FIO VAST MER A RE PR SOCEM m BETO. RITE MEH i 

EERE (precision matrix) B 进 行 奉 代 : 





cats exp (ic -HA) B(x — n) (3.24) 


2 
我 们 篆 利 把 协 方 差 定 阵 回 定 成 一 个 对 角 阵 。 一 个 更 简单 的 厂 本 是 各 回 同 
性 Cisotropic) 高 斯 分 布 ， 它 的 协 方 和 震 矩阵 是 一 个 标量 乘 以 单位 阵 。 


3.9.4 ”指数 分 布 和 Laplace 分 布 


N(x; p, 8) =. 


在 深度 学 习 中 ， 我 们 经 名 会 需要 一 个 在 X=0 点 处 取得 边界 点 〈sharp 
point) 的 分 布 。 为 了 实现 这 一 目的 ， 我 们 可 以 使 用 指数 分 布 


(exponential distribution) : 


p(x; A) = Aliso exp(—Az) (3.25) 


8 数 分 布 用 指示 函数 (indicator function) 1,, >0 来 使 得 当 x 取 负 值 时 的 


一 个 联系 崇 密 的 概率 分 布 是 Laplace 分 布 (Laplace distribution) , ‘E fù 
许 我 们 在 任意 一 点 ph 处 设置 概 训 质量 的 峰值 : 


1 £ — uU 
Laplace(x; p, y) = 5~ XP (-=—) (3.26) 
' 7" 


) 


3.9.5 Dirac 分 布 和 经 验 分 布 


在 一 些 情况 下 ， 我 们 和 硕 望 概率 分 布 中 的 所 有 质量 都 集中 在 一 个 点 上 。 这 
可 以 通过 Dirac delta 函 数 (Dirac delta function) 86( 世 定义 概率 密度 函数 
来 实现 : 


p(x) = d(x — u) (S.27 ) 


Dirac delta 函 数 极 定义 成 在 除了 0 以 外 的 所 有 点 的 值 都 为 0， 但 是 积分 为 
1. Dirac delta 函数 不 像 普 通 函 数 一 样 对 x 的 每 一 个 值 都 有 一 个 实数 值 的 
输出 ， 它 是 一 种 不 同类 型 的 数学 对 象 ， 航 称 为 广义 函数  Cgeneralized 
function) ， 广 义 函 数 是 依据 积分 性 质 定 义 的 数学 对 象 。 我 们 可 以 把 
Dirac delta 国 数 想 成 一 系列 图 数 的 极限 点 ， 这 一 系列 图 数 把 除 0 以 外 的 所 
有 点 的 概率 密 虔 越 变 越 小 。 


通过 把 PC 定义 成 8 函数 元 移 -h 个 单位 ， 我 们 得 到 了 一 个 在 x=h 处 具有 无 
限 鹤 也 无 限 高 的 峰值 的 概率 质量 。 


Dirac 分 布 经 党 作为 经 验 分 布 Cempirical distribution) 的 一 个 组 成 部 分 出 
Fl: 


m 


1 
j - slæ — 7 3.28 
p( a) = 3 (a2 — x"’) ( ) 


经 验 分 布 将 概率 密度 _ 上 Wami... gel) 中 的 每 一 个 ， 这 


Th 
些 点 是 给 定 的 数据 集 或 者 采样 的 集合 。 只 有 在 定义 连续 型 随机 变量 的 经 
IIIT, Dirac ” ”delta 函数 才 是 必要 的 。 对 于 离散 型 随机 变量 ， 情 况 更 
加 简单: 经 验 分 布 可 以 被 定义 成 一 个 Multinoulli 分 布 ， 对 于 每 一 个 可 能 
的 输入 ， 其 概率 可 以 简单 地 设 为 在 训练 集 上 那个 输入 值 的 经 验 频 率 


(empirical frequency) 。 


当 我 们 在 训练 集 上 训练 模型 时 ， 可 以 认为 从 这 个 训练 集 上 得 到 的 经 验 分 
布 指明 了 采样 来 源 的 分 布 。 关 于 经 验 分 布 男 外 一 种 重要 的 观点 是 ， 它 是 
训练 数据 的 似 然 最 大 的 那个 概 认 密度 函数 〈 见 第 5.5 广 )。 


3.9.6 分布 的 混合 
通过 组 合 一 些 简 单 的 概率 分 布 来 定义 新 的 概率 分 布 也 是 很 常见 的 。 一 种 


通用 的 组 合 方法 是 构造 混合 分 (mixture distribution) 。 混 合 分 布 由 
一 些 组 件 (component) 分 布 构成 。 每 次 实验 ， 样 本 是 由 哪个 组 件 分 布 
产生 的 取决 于 从 一 个 Multinoulli 分 布 中 采样 的 结 


Pg= Y ee 一 (3.29) 


这 里 P(c) 是 对 各 组 件 的 一 个 Multinoulli 分 布 。 


我 们 已 经 看 过 一 个 混合 分 布 的 例子 了 : 实 值 变 量 的 经 验 分 布 对 于 每 一 个 
训练 实例 来 说 ， 就 是 以 Dirac 分 布 为 组 件 的 混合 分 布 。 


混合 模型 古 组 合 简 里 概率 分 布 来 生成 更 丰富 的 分 布 的 一 种 简单 案 略 。 在 
第 16 草 中， 我 们 更 加 详细 地 探讨 从 人 简 早 概率 分 布 构 建 复杂 模型 的 技术 。 


混合 模型 使 我 们 能 够 一 璧 以 后 会 用 到 的 一 个 非常 重要 的 概念 Het AO Be 
(latent variable) . #¥20H Esk AREA EWU BI GEL Ae se. HR 
AY EN) ZH Pp WR ee cae A I. TE EIR GO) h BB Ax 
天 ， 在 这 种 情况 下 ，P(x,c)=P(x | OP(O。 湾 变量 的 分 布 PLO 以 及 关联 潜 

变量 和 观测 变量 的 条 件 分 布 P(x | eo, BEARES TROKEA, RKE 
描述 POCO 时 可 能 并 不 需要 潜 变 量 。 潜 变量 将 在 第 16.5 节 中 深入 讨论 。 





— 7S SE OK H LA ee re GZ (Gaussian Mixture 
Model) ， 它 的 组 件 p(x | c=i 是 高 斯 分 布 。 每 个 组 件 都 有 各 目的 参数 ， 
均值 n © 和 协 方差 矩阵 2 O 。 有 一 些 混 合 可 以 有 更 多 的 限制 。 例 如 ， 协 
方差 矩阵 可 以 通过 ww 一 yi 的 形式 在 组 件 之 间 共 享 参 数 。 和 单个 
高 斯 分 布 一 样 ， 高 斯 论 合 模型 有 时 会 限制 每 个 组 件 的 协 方才 窍 阵 为 对 角 
的 或 者 各 同 同 性 的 《标量 乘 以 单位 窍 阵 ) 。 


除了 均 信 和 协 方差 以 外 ， 高 斯 混合 模型 的 参数 指明 了 给 每 个 组 件 i 的 移 

验 概 率 (prior probability) a ; =P(c=iD。“ 先 验 ” 一 词 表 明了 在 观测 到 x 之 
前 传递 给 模型 天 于 c 的 信念 。 作 为 对 比 ，P(c | 区 是 后 验 和 概率 《posterior 
probability) ， 因 为 它 是 在 观测 到 x 之 后 进行 计算 的 。 高 斯 混合 模型 是 概 
率 密 上 度 的 万 能 近似 嚣 ” (universal approximator) ， 在 这 种 意义 下 ， 任 何 
平 请 的 概率 密度 都 可 以 用 有 具有 足 够 多 组 件 的 高 斯 混合 模型 以 任意 精度 来 
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图 3.2 ”来自 融 斯 混合 模型 的 样本 。 在 这 个 示例 中 ， 有 3 个 组 件 。 从 左 到 右 ， 第 1 个 组 件 具 有 各 问 
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3.10 ”各 用 函数 的 有 用 性 质 


菏 些 函数 在 处 理 概 率 分 布 时 经 常会 出 现 ， 尤 其 古 深度 等 习 的 模型 中 用 到 
的 概率 分 布 。 


其 中 一 个 函数 是 logistic sigmoid ef 2X: 


] 
十 (一 


logistic sigmoid 孙 数 通 常用 来 产生 Bernoulli 分 布 中 的 参数 gp， 因为 它 的 范 
图 是 00,1) ， 处 在 qg 的 有 效 取 值 范 围 内 。 图 3.3 给 出 了 sigmoid 函 数 的 图 
示 。sigmoid 隐 数 在 变量 取 绝 对 值 非常 大 的 正 值 或 负 值 时 会 出 现 饱 和 

(saturate) 现象 ， 意 味 看 函数 会 变 得 很 平 ， 并 且 对 输入 的 微小 改变 会 变 
得 不 敏感 。 


a(x) (3.30) 


Or 


—10 一 0 10 


图 3.3 logistic sigmoid Pk) 2X 


男 外 一 个 经 党 过 到 的 函数 是 softplus 函 数 (softplus function) (Dugas et 
al., 2001) : 


C(x) = log(1 + exp(7z)) (3.31) 


softplus K žr A] LAA RPE TEAS AH BHOB A, ALA EWU E E 
(0,0) 。 当 处 理 包 侣 sigmoid 函 数 的 表达 陈 时 ， 它 也 经 营 出 现 。softplus 
图 数 名 来 源 于 它 是 另外 一 个 函数 的 平 请 《或 “软化 ") 形式 ， 这 个 函数 古 


图 3.4 给 出 了 softplus 函 数 的 图 示 。 


at = max(0,z). (3.02) 
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图 3.4 softplus PK žk 
下 面 一 些 性 质 非常 有 用 ， 你 可 能 要 记 下 来 。 
exp(x) dii 
eT ma E 3-33 
ate) exp(.r) + exp(0) \ 
1 
oa(7) = o(x)(1 — o(x)) (3.34) 
dx 
1 — o(x) = 0o (—T) (3.35) 
log a(x) = —C(—2) (3.36) 
L Cla) = wt (3.37) 
GAL 
Vz € (0,1),o (x) = log G Ë ) (3.38) 
m 
Vz > 0,¢€7*(x) = log(exp(x) — 1) (3.39) 
x)= | oldu (3.40) 
C(x)— C(—r)= zx (3.41) 


图 数 ac t (x) 在 统计 学 中 被 称 为 分 对 数 logit) ， 但 这 个 函数 在 机 器 学 习 
中 很 少 用 到 。 


TK (3.41) NAŽA “softplus’ se Ht S HAIEK. softplus K BUA iz 

计 成 正 部 函数 (positive part function) 的 平滑 版 本 ， 这 个 正 部 函数 是 指 

x ” =max{f0x}。 与 正 部 函数 相对 的 是 负 部 函数 (negative part 

function) » Bx ~ =max{0,-x}. WS IRR De PP K 

AX, RATE LEHO). Rx A DAA SE a PS a x t -x 

=x RRE, RAJE AY DAA EREA OT C(x) AC(—x) ERE, RTA 
(3.41) 中 那样 。 


3.11 WLP JU 


我 们 经 常会 需要 在 已 知 P(y | x) 时 计算 P(x | y) S21 Ne, ORAS 
P(x)， 我 们 可 以 用 贝 叶 斯 规则 (Bayes' rule) 来 实现 这 一 目的 : 


(3.42) 


注意 到 P(y) 出 现在 上 面 的 公式 中 ， 它 通常 使 用 
P(y) = >... Ply | ©) P(x) 来 计算 ， 所 以 我 们 并 不 需要 事先 知道 
P(y) 的 信息 。 


由 叶 斯 规则 可 以 从 条 件 概 认 的 定义 直接 推 寻 得 出 ， 但 我 们 最 好 记 住 这 个 
公式 的 名 字 ， 因 为 很 多 文献 通过 名 字 来 引用 这 个 公式 。 这 个 公式 是 以 牧 
师 Thomas Bayes 的 名 字 来 命名 的 ， 他 是 第 一 个 发 现 这 个 公式 特例 的 人 。 
这 里 介绍 的 一 般 形 式 由 Pierre-Simon Laplace 独 立 发 现 。 


3.12 ”连续 型 变量 的 技术 细节 


连续 型 随机 变量 和 概率 密度 函数 的 深入 理解 需要 用 到 数学 分 文 测度 论 
(measure theory) 的 相关 内 容 来 扩展 概率 论 。 测 上 度 论 超出 了 本 书 的 苑 
暑 ， 但 我 们 可 以 简要 介绍 一 些 测 度 论 用 来 解决 的 问题 。 


在 第 3.3.2 节 中 ， 我 们 已 经 看 到 连续 型 向 量 值 随机 变量 x 落 在 某 个 集合 SS) 
中 的 概率 是 通过 p( x ) 对 集合 S 积分 得 到 的 。 对 于 集合 S 的 一 些 选择 可 
能 会 引起 悖 论 。 例 如 ， 构 造 两 个 集合 S1 和 S2 使 得 
p(x eS1)+p(e E€ S2) > 1 FAS) NS2=0 是 可 能 


Hy. THESE Ga Fh Ae ee BE SSRI OR AEN, «Pr a 
造 分 形 形 状 〈fractal-shaped) 的 集合 或 者 是 通过 有 理 数 相关 集合 的 变换 

定义 的 集合 。 测度 论 的 一 个 重要 贡献 就 是 提供 了 一 些 集合 的 特征 ， 使 
得 我 们 在 计算 概率 时 不 会 过 到 导论 。 在 本 书 中 ， 我 们 只 对 相对 人 简单 的 集 
合 进 行 积 分 ， 所 以 测度 论 的 这 个 方面 不 会 成 为 一 个 相关 考虑 。 


对 于 我 们 的 目的 ， 测 度 论 更 多 的 是 用 来 描述 那些 适用 于 个 六 上 的 大 多 
数 点 ， 却 不 适用 于 一 些 边界 情况 的 定理 。 测 度 论 提供 了 一 种 严格 的 方式 
来 描述 那些 非常 微小 的 点 集 。 这 种 集合 被 称 为 “ 零 测度 Ce 
zero) "的 。 我 们 不 会 在 本 书 中 给 出 这 个 概念 的 正式 定义 。 然 而 ， 直 观 地 
理解 这 个 概念 是 有 用 的 ， 可 以 认为 零 测度 集 在 我 们 的 度量 空间 中 不 占有 
任何 的 体积 。 例 如 ， 在 R 2 空间 中 ， 一 条 直线 的 测度 为 零 ， 而 填充 的 多 
边 形 具有 正 的 测度 。 类 似 地 ， 一 个 单独 的 点 的 测度 为 零 。 可 数 多 个 零 测 
度 集 的 并 仍然 是 零 测度 的 所以， 所 有 有 理 数 构成 的 集合 的 测度 为 


E) o 


男 外 一 个 有 用 的 测度 论 中 的 术语 是 “几乎 处 处 ”(almost everywhere) ”。 
示 个 性 质 如 采 是 几乎 处 处 都 成 立 的 ， 那 么 它 在 整个 空间 中 除了 一 个 测度 
为 零 的 集合 以 外 都 是 成 立 的 。 因 为 这 些 例外 只 在 空间 中 占有 极其 微小 的 
量 ， 写 们 在 多 数 应 用 中 都 可 以 被 放心 地 忽略 。 概 对 论 中 的 一 些 重要 结果 
对 于 离散 值 成 芯 ， 但 对 于 连续 值 只 能 是 “几乎 处 处 ”成立 。 


连续 型 随机 变量 的 另 一 技术 细节 涉及 处 理 那 种 相互 之 间 有 确定 性 函数 关 
系 的 连续 型 变量 。 假 设 有 两 个 随机 变量 x 和 y 满足 y =g( x )， 其 中 g 是 可 
逆 的 、 连 续 可 微 的 函数 。 可 能 有 人 会 想 p, (y) 二 ps(g-!(y)) 。 但 实 
际 上 这 并 不 对 。 


举 一 个 简单 的 例子 ， 假 设 有 两 个 标量 值 随机 变量 x 和 y， 并 且 满足 


x 
V —— 5 以 及 x-U(0,D)。 如 末 我 们 使 用 p y (=p, 2y) ARAp y PR 
raO, 5 prso, 并 且 在 这 个 区 间 上 的 值 为 1。 这 意味 着 


1 
J py(y)dy = 5 (3.43) 


而 这 违背 了 概率 密度 的 定义 〈 积 分 为 1) XA IR E, 
因为 它 没有 考虑 到 引入 函数 g 后 造成 的 空间 变形 。 回 忆 一 下 ， 
穷 小 的 体积 为 6x 的 区 域内 的 概率 为 p( x )6 x 。 因 为 g 可 能 会 扩展 或 者 压 
4a 25/8], 7E x 空间 内 的 包围 着 x 的 无 穷 小 体积 在 y 空间 中 可 能 有 不 同 的 
体积 。 


为 了 看 出 如 何 改正 这 个 问题 ， 我 们 回 到 标量 值 的 情况 。 我 们 需要 保持 下 


IPy(g(x))dy| = |px(x)dx| (3.44) 


求解 上 式 ， 我 们 得 到 











On 
Py(y) = ply Dy (3.45) 
或 者 等 价 地 ， 
Ov 
pala) = py(g(a)) | (3.46) 








fe Ze lH, Wipe eH He N Jacobian (Jacobian matrix) 的 行 








. Ox; E 
列 式 一 矩阵 的 每 个 元 素 为 ,/; j = Jy 二 。 因 此 ， 对 于 实 值 向 量 x 
a B N. 
Ally , 
pe(z) = py(g(2)) det (2) (3.47) 





3.13 ”信息 论 


信息 JO 论 是 应 用 数学 的 一 个 分 支 ， 主要 研究 的 是 对 一 个 信 39 包含 1 Ala AA 的 多 

少 进行 量化 。 它 最 初 被 发 明 是 用 来 研究 在 一 个 含有 品 声 的 信道 上 用 离散 

ELAR AAA E, Bil Oo 2g Fe I a. FERRETS mu F, N: 

息 论 告 诉 我 们 如 何 对 消息 设计 最 优 编码 以 及 计算 fH LAY BHR, 

iF 是 使 用 多 种 不 同 编码 机 制 、 从 特定 的 概率 分 布 上 采样 得 到 的 。 A 
器 学 习 中 ， 我 们 也 可 以 把 信息 论 应 用 于 连续 型 变量 ， 此 时 某 些 消息 长 度 


的 解释 不 再 适用 。 信 息 论 是 电子 工程 和 计算 机 科学 中 许多 领域 的 基础 。 
在 本 书 中 ， 我 们 主要 使 用 信息 论 的 一 些 天 键 思 想来 摘 述 概率 分 布 或 者 量 
化 概率 分 布 之 间 的 相似 性 。 有关 信 息 论 的 更 多 细节 ， 参 见 Cover and 
Thomas (2006) 或 者 MacKay (2003) 。 


宇 居 论 的 基本 想法 是 一 个 不 太 可 能 的 事件 大 然 友 生 了 ， 要 比 一 个 非 第 可 
能 的 事件 发 生 ， 能 提供 更 多 的 信息 。 消 恕 说 :“ 今 天 早上 太阳 逢 起” 信 
姑 量 是 如 此 之 少 ， 以 至 于 没有 必要 友 运 ; 但 一 条 消 居 说 :“ 今 天 早上 有 
HR”, fa SOR M o 
我 们 想 要 通过 这 种 基本 想法 来 量化 信息 。 特 别 是 : 
。 非 第 可 能 友 生 的 事件 信息 量 要 比较 少 ， 并 且 极 并 情况 下 ， 确 你 能 够 
发 生 的 事件 应 该 没有 信息 量 。 
。 较 不 可 能 及 生 的 事件 上 其 有 更 局 的 信息 量 。 
。 独立 事件 应 具有 增 量 的 信息 。 例 如 ， 投 掷 的 使 币 两 次 正面 天 上 传递 
的 信息 量 ， 应 该 十 投 撕 一 次 便 币 正面 随 上 的 信息 量 的 两 倍 。 


为 了 满足 上 述 3 个 性 质 ， 我 们 定义 一 个 事件 x=x 的 目 信 息 (self- 
information) 为 

I(x) = —log P(a) (3.48) 
在 本 书 中 ， 我 们 总 是 用 log 来 表示 目 然 对 数 ， 其 的 数 为 e。。 因 此 我 们 定义 
SEMER (nats) 。 ARES U 的 概率 观测 到 一 个 事件 时 获 
得 的 信息 量 。 其 他 的 材料 中 使 用 底数 为 2 的 对 数 ， 单位 是 比 符 bit) 或 


者 香农 (shannons) ; 通过 比特 度量 的 信息 只 是 通过 奈 特 度量 信息 的 常 


BUT o 


当 x 古 连续 的 ， 我 们 使 用 奖 似 的 天 于 信息 的 定义 ， 但 有 些 来 源 于 离散 形 
却 的 性 质 融 丢失 了 。 例 如 ， 一 个 具有 单位 密度 的 事件 信息 量 仍然 为 0， 
但 是 不 能 保证 它 一 定 发 生 。 


目 信 息 只 处 理 单 个 的 输出 。 我 们 可 以 用 香农 燃 〈Shannon entropy) 来 对 
整个 概率 分 布 中 的 不 确定 性 总 量 进 行 量化 : 


H (x) = Espi) = —E,.~ p |log P(z)| (3.49) 


也 记 作 H(P)。 换 言 之 ， 一 个 分 布 的 香农 燃 是 指 避 人 循 这 个 分 布 的 事件 所 产 
生 的 期 望 信息 电量 。 它 给 出 了 对 依据 概 座 分 布 P 生 成 的 从 号 进行 编码 所 
需 的 比特 数 在 平均 意义 上 的 下 卉 〈 当 对 数 底数 不 是 2 时 ， 单 位 将 有 所 不 
il) 。 那 些 接近 确定 性 的 分 布 ( 输 出 几乎 可 以 确定 ) FREER IKI: 那 
些 接近 均匀 分 布 的 概率 分 布 具有 较 高 的 录 。 图 3.5 给 出 了 一 个 说 明 。 当 x 
EER, AAI AIR Ao) RA (differential entropy) 。 


0.7 
0.6 


ERROREA) 


0.0 0.2 0.4 0.6 0.8 1.0 











图 3.5 {EB GRNLAR a A. TAREE SB Ber E EN oo 7 ee Se BO RRAK 
Pew ly >) 4p 47a AY aA ae SO BO RARA. KOR Sep, KaR ALAR TL 
X. M H(p-1)log(1-p)-p log p 给 出 。 当 p 接 近 0 时 ， 分 布 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 
0。 当 p 接 近 1 时 ， 分 布 也 几乎 是 确定 的 ， 因 为 随机 变量 几乎 总 是 1。 当 p=0.5 时 ， 和 是 最 大 的 ， 
为 分 布 在 两 个 结果 〈0 和 1) 上 是 均匀 的 


如 采 对 于 同一 个 随机 变量 x 有 两 个 单独 的 概率 分 布 POO 和 Q(a， 可 以 使 用 
KLJ = Kullback-Leibler (KL) divergence) 来 衡量 这 两 个 分 布 的 关 
FP: 











P(x) 
Q(x) 





Dy (P||Q) = Erop og | = E,~pllog P(x) — log Q (x)| (3.50) 
TARERE P KL BUS See, SBE aA TT AM 
能 够 使 得 概率 分 布 Q 产 生 的 消息 的 长 度 最 小 的 编码 ， 有 发 大 包含 由 概率 分 
布 P 产 生 的 符 亏 的 消息 时 ， 所 需要 的 额外 信息 量 〈 如 果 我 们 使 用 撒 数 为 2 
的 对 数 时 ， 信 息 量 用 比特 衡量 ， 但 在 机 天 学 习 中 ， 我 们 通 第 用 对 特 和 目 
然 对 数 。 ) 


g = argmin, D1 (p| | q) g= argmin, Dkr( q| |p) 





图 3.6 ”KL 散 度 是 不 对 称 的。 假设 我 们 有 一 个 分 布 P(x)， 并 且 希 望 用 另 一 个 分 布 g(%) 来 近似 它 。 
我 们 可 以 选择 最 小 化 DKL (p||q) 或 最 小 化 DKL (g||P) 。 为 了 说 明 每 种 选择 的 效果 ， 我 
令 p 是 两 个 高 斯 分 布 的 混合 ， 令 q 为 单个 高 斯 分 布 。 选 择 使 用 KL 散 度 的 哪个 方向 是 取决 于 问题 
的 。 一 些 应 用 需要 这 个 近似 分 布 q 在 真实 分 布 p 放 置 高 概率 的 所 有 地 方 都 放置 高 概率 ， 而 其 他 应 
用 需要 这 个 近似 分 布 d 在 真实 分 布 p 放 置 低 概率 的 所 有 地 方 都 很 少 放置 高 概率 。KL 散 度 方 向 的 先 
择 反映 了 对 于 每 种 应 用 ， 优 先 考虑 哪 一 种 选择 。 ( 左 ) 最 小 化 DKL (p||q) 的 效果 。 在 这 种 
情况 下 ， 我 们 选择 一 个 gs， 使 得 它 在 p 具 有 高 概率 的 地 方 具有 高 概率 。 当 p 具 有 多 个 峰 时 ，g 选 择 
将 这 些 峰 模糊 到 一 起 ， 以 便 将 高 概率 质量 放 到 所 有 峰 上 。 Oh) 最 小 化 Diz, (q||p) 的 效 
果 。 在 这 种 情况 下 ， 我 们 选择 一 个 q， 使 得 它 在 p 具 有 低 概率 的 地 方 具有 低 概率 。 当 p 具 有 多 个 峰 
并 且 这 些 峰 间隔 很 宽 时 ， 如 该 图 所 示 ， 最 小 化 KL 散 度 会 选择 单个 峰 ， 以 避免 将 概率 质量 放置 在 
p 的 多 个 峰之 间 的 低 概率 区 域 中 。 这 里 ， 我 们 说 明 当 q 被 选择 成 强调 左边 峰 时 的 结果 。 我 们 也 可 
以 通过 选择 右边 峰 来 得 到 KL 散 度 相同 的 值 。 如 果 这 些 峰 没有 被 足够 强 的 低 概率 区 域 分 离 ， 那 么 
KL 散 度 的 这 个 方向 仍然 可 能 选择 模糊 这 些 峰 


KL 散 度 有 很 多 有 用 的 性 质 ， 最 重要 的 是 ， 它 是 非 负 的 。KL 散 度 为 0， 当 
且 仅 当 P 和 Q 在 离散 型 变量 的 情况 下 是 相同 的 分 布 ， 或 者 在 连续 型 变量 
的 情况 下 是 “几乎 处 处 ?相同 的 。 因 为 KL 散 度 是 非 负 的 并 且 衡量 的 是 两 
个 分 布 之 间 的 差异 ， 它 经 常 被 用 作 分 布 之 间 的 某 种 距离 。 然 而 ， 它 并 不 
是 真 的 距离 ， 因 为 它 不 是 对 称 的 ， 对 于 某 些 p 和 Q, Dk1( P|IQ) 4 
































DkL(Q@|IP) 。 这 种 非 对 称 性 意味 着 选择 DkI, (PQ) ”还 是 
Fe P) 影 啊 很 大 。 更 多 细节 可 以 看 图 3.6。 





一 个 和 KL 散 度 密 切 联 系 的 量 是 交叉 和 (cross-entropy) ， 即 
H(P,Q) = H(P)+Dyz(P||Q)> EAKLARER IR, Ei 


少 左 边 一 项 : 


H(P,Q) = —Ex~p log Q(x) (3.51) 


ERORE SIE FR IMCKLAUE, KIAQSEAE SAR K HAR 
=i 


当 我 们 计算 这 些 量 时 ， 经 常会 遇 到 0 log 0 这 个 表达 式 。 按 照 惯例 ， 在 信 
恩 论 中 ， 我 们 将 这 个 表达 式 处 理 为 lim , oX log x=0. 


3.14 ”结构 化 概率 模型 


机 大 学 习 的 算法 经 第 会 涉及 在 非 弟 多 的 随机 变量 上 的 概率 分 布 。 通 第 ， 
这 些 概率 分 布 涉 及 的 下 接 相互 作用 部 是 介 于 非常 少 的 变量 之 间 的 。 使 用 
单个 函数 来 插 述 整个 联合 概率 分 布 是 非 第 低 效 的 (无论 是 计算 上 还 是 统 
We 


我 们 可 以 把 概率 分 布 分 解 成 许多 因子 的 乘积 形式 ， 而 不 是 使 用 单一 的 函 
数 来 表示 概率 分 布 。 例 如 ， 假 设 我 们 有 3 个 随机 变量 a、b 和 c， 并 且 a 影 
响 b 的 取 值 ，b 影 响 c 的 取 值 ， 但 是 a 和 c 在 给 定 b 时 是 条 件 独立 的 。 我 们 可 
以 把 全 部 3 个 变量 的 概率 分 布 重 新 表示 为 两 个 变量 的 概率 分 布 的 连 乘 形 


Tk: 
p(a, b,c) = p(a)p(b | a)p(c | b) (3.52) 


LPH OY A AY LAKAR Dal > FR TIS “PS ad A seo EATE H 
的 参数 数目 是 其 变量 数目 的 指数 倍 。 这 意味 着 ， 如 有 果 我 们 能 够 找到 一 种 
使 每 个 因子 分 布 上 共有 蝎 少 变量 的 分 解 方 法 ， 束 能 极 大 地 降低 表示 联合 分 
布 的 成 本 。 


可 以 用 图 来 搞 述 这 种 分 解 。 这 里 我 们 使 用 的 是 图 论 中 的 “图 ”的 概 众 : 由 

一 些 可 以 通过 边 互 相连 接 的 顶点 的 集合 构成 。 当 用 图 来 表示 这 种 概率 分 
布 的 分 解 时 ， 我 们 把 它 称 为 结构 化 概率 模型 ” (structured probabilistic 
model) 或 者 图 模型 (graphical model) 。 


有 两 种 主要 的 结构 化 概率 模型 ， 有 问 的 和 无 同 的 。 两 种 图 模型 部 使 用 图 
CO ， 其 中 图 的 每 个 节点 对 应 着 一 个 随机 变量 ， 连 接 两 个 随机 变量 的 边 意 
味 看 概率 分 布 可 以 表示 成 这 两 个 随机 变量 之 间 的 耳 接 作用 。 


AP) (directed) 模型 使 用 市 有 有 辣 边 的 图 ， 它 们 用 条 件 概率 分 布 来 表 
示 分 解 ， 束 像 上 面 的 例子 。 特 列 地 ， 有 问 模 型 对 于 分 布 中 的 每 一 个 随机 


变量 x ; 都 包含 着 一 个 影响 因子 ， 这 个 组 成 x ; 条 件 概率 的 影响 因子 被 称 为 
x 的 父 节 点 ， 记 为 人 Qo (X; ) 


= | [pi] Pag(x:)) (3.53) 


图 3.7 给 出 了 一 个 有 问 图 的 例子 以 及 它 表示 的 概率 分 布 的 分 解 。 








图 3.7 天 于 随机 变量 a、b、c、d 和 和 e 的 有 问 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 


p(a, b,c,d,e) = p(a)p(b | a)p(c | a, b)p(d | b)p(e | c) (3.54) 


该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 c 下 接 相 五 
影响 ， 但 a 和 e 只 有 通过 c 国 接 相 互 影 响 


无 同 Cundirected) 模型 使 用 市 有 无 回 边 的 图 ， 它 们 将 分 解 表 示 成 一 
图 数 : 不 像 有 癌 模 型 那样 ， 这 些 函 数 通 向 不 是 任何 类 型 的 概率 分 布 。U 
dole ae a ‘为 团 。 无 同 模 型 中 的 每 
SACU) 都 伴 随 着 一 个 因子 6 (CO) 。 这 些 因子 仅仅 是 函数 ， 并 不 
是 概 众 分 布 。 每 个 因子 的 输出 都 必须 是 非 负 的 ， 但 是 并 没有 像 概率 分 布 
中 那样 要 求 因 子 的 和 或 者 积分 为 1。 


随机 变量 的 联合 概率 与 所 有 这 些 因 了 于 的 乘积 成 比例 (proportional ) 

一 一 这 意味 看 因子 的 值 越 大 ， 则 可 能 性 越 大 。 当 然 ， 不 能 你 证 这 种 乘积 
的 求 和 为 1。 所 以 我 们 需要 际 以 一 个 归 一 化 第 数 Z 来 得 到 归 一 化 的 概率 分 
es 概率 分 


p(x) = Two (€® ) (3.55) 
图 3.8 给 出 了 一 个 无 回 图 的 例子 以 及 它 表 示 的 概率 分 布 的 分 解 。 








图 3.8 ”天 于 随机 变量 a、b、c、d 和 和 e 的 无 回 图 模型 。 这 幅 图 对 应 的 概率 分 布 可 以 分 解 为 


L r : 
p(a, b,c,d, e) = 79 (a, b,c)¢”(b, d)ọ® (c,e) (3.56) 


该 图 模型 使 我 们 能 够 快速 看 出 此 分 布 的 一 些 性 质 。 例 如 ，a 和 和 c 生 接 相互 
影响 ， 但 a 和 e 只 有 通过 c 辐 接 相 互 影 啊 


请 记 住 ， 这 些 图 模型 表示 的 分 解 仅仅 是 描述 概率 分 布 的 一 种 语言 。 它 们 


不 是 互相 排斥 的 概率 分 布 族 。 有 问 或 者 无 同人 不 是 概率 分 布 的 特性 ， 它 是 
概率 分 布 的 一 种 特殊 描述 (description〉 所 具有 的 特性 ， 而 任何 概率 分 
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在 本 书 第 1 部 分 和 第 2 部 分 中 ， 我 们 仅仅 将 结构 化 概率 模型 视 作 一 门 语 
言 ， 来 描述 不 同 的 机 器 学 习 算 法 选择 表示 的 直接 的 概率 关系 。 在 讨论 研 
究 课题 之 前 ， 读 者 不 需要 更 深入 地 理解 结构 化 概率 模型 。 在 第 3 部 分 的 
研究 课题 中 ， 我 们 将 更 为 详尽 地 探讨 结构 化 概率 模型 。 


本 章 复习 了 概率 论 中 与 深度 学 习 最 为 相关 的 一 些 基 本 概 您 。 我 们 还 剩 下 
一 些 基本 的 数学 工具 需要 讨论 数值 计算 。 


(D FRE: 国内 有 些 教材 也 将 PMF 翻 译 成 概率 分 布 律 。 


(2) “multinoulli> 这 个 术语 是 最 近 被 Gustavo Lacerdo 发 明 、 被 Murphy (2012) 推广 的 。 
Multinoulli 分 布 是 多 项 式 分 布 (multinomial distribution) 的 一 个 特例 。 多 项 式 分 布 是 10，…，Pn 
K 中 的 向 量 的 分 布 ， 用 于 表示 当 对 Multinoulli 分 布 采样 n 次 时 k 个 类 中 的 每 一 个 被 访问 的 次 数 。 人 很 
多 文章 使 用 “多 项 式 分 布 * 而 实际 上 说 的 是 Multinoulli 分 布 ， 但 是 他 们 并 没有 说 是 对 n=1 的 情况 ， 


这 扩 需 要 注意。 





(3) ” ”Banach-Tarski 定 理 给 出 了 这 类 集合 的 一 个 有 趣 的 例子 。 译 者 注 : 我 们 这 里 把 “the set of 
rational numbers” 翻 译 成 “有 理 数 相关 集合 ”"， 理 解 为 “一 些 有 理 数 组 成 的 集合 "， 如 果 直 接 用 后 耐 
的 翻译 读 起 来 会 比较 抛 口 。 


第 4 章 ”数值 计算 
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解 的 佑 计 信 来 解决 数学 问题 的 算法 ， 而 不 是 通过 解析 过 程 推导 出 公 邢 来 
提供 正 确 解 的 方法 。 第 见 的 操作 包括 优化 《找到 最 小 化 或 最 大 化 函数 信 
的 参数 ) 和 线性 方程 组 的 求解 。 对 数字 计算 机 来 说 ， 实 数 无 法 在 有 限 内 
存 下 精确 表示 ， 因 此 仪 仪 是 计算 涉及 实数 的 函数 也 是 困难 有 的 。 


4.1 EA P vat 
连续 数学 在 数字 计算 机 上 的 根本 困难 是 ， 我 们 需要 通过 有 限 数量 的 位 模 


式 来 表示 无 限 多 的 实数 。 这 意味 看 我 们 在 计算 机 中 表示 实数 时 ， 几 了 乎 忆 
会 引入 一 些 近 似 误 牵 。 在 许多 情况 下 ， 这 仪 仅 是 舍 入 误 弄 。 舍 入 误 达 会 


导致 一 些 问 题 ， 特 列 是 当 许 多 拘 作 复合 时 ， 即 使 是 理论 上 可 行 的 算法 ， 
如 朵 在 设计 时 没有 考虑 最 小 化 舍 入 误 甘 的 宗 积 ， 在 实践 时 也 可 能 会 导致 
算法 失效 。 


一 种 极 具 毁灭 性 的 舍 入 误差 是 下 浇 underflow) 。 当 接近 零 的 数 被 四 
舍 五 入 为 零 时 发 生 下 次。 许多 函数 在 其 参数 为 零 而 不 是 一 个 很 小 的 正 数 
时 才 会 表现 出 质 的 不 同 。 例 如 ， 我 们 通常 要 避免 被 和 零 际 (一 些 软 件 环 培 
将 在 这 种 情况 下 抛 出 异常 ， 有 些 会 返回 一 个 非 数 字 (not-a-number， 
NaN) WEM 或 避免 取 零 的 对 数 〈 这 通 间 被 视 为 -oo， 进 一 步 的 算术 
运算 会 使 其 变 成 非 数 字 ) 。 


尺 一 个 极 具 破坏 力 的 数值 错误 形式 是 上 次 Coverflow) 。 当 大 量 级 的 数 
裤 近似 为 或 -oo 时 上 友 生 上 光 。 进 一 步 的 运算 通 币 会 导致 这 些 无 限 信 变 为 
FEAL 


eZ Xt TE vat AB yam dt 77 BU HS FE HY 7 Yl $7 softmax K BV (softmax 
function) . softmaxek| 2A fy BF MI- Multinoulliz? 7p AH Se AAA , 
exp) 


softmax(x); = r (4.1) 


Jaga Pl) 
考虑 一 下 当 所 有 x ; ABST HCI RRETA. MEWN E, 


我 们 可 以 发 现 所 有 的 输出 都 应 该 为 十 。 从 数值 计算 上 说 ， 当 c 量 级 很 大 
Tl 
I, XARES E. OR CEDAR, expone him. AARE 
softmax EA BX HY a BES Ae KO, POR Za RR RE A. AcE AK 
IESE, exp (c) W vm Fe BE PE ZETA SURE Mo PAS EE BE 
过 计算 softmax(Z) 同 时 解决 ， 其 中 z=X-maxixi。 人 简单 的 代数 计算 表明 ， 
softmax 解 机 上 的 函数 值 不 会 因为 从 输入 回 量 减 去 或 加 上 标量 而 改变 。 
减 去 max , x , 导致 exp 的 最 大 参数 为 0， 这 排除 了 上 次 的 可 能 性 。 同 样 
地 ， 分 母 中 至 少 有 一 个 值 为 1 的 项 ， 这 融 排 除了 因 分 母 下 次 而 导致 被 零 
除 的 可 能 性 。 


还 有 一 个 小 问题 。 分 子 中 的 下 沪 仍 可 以 导致 整体 表达 式 被 计算 为 零 。 这 
意味 着 ， 如 果 我 们 在 计算 log softmax( x ) 时 ， 先 计算 softmax 再 把 结果 传 


ZS loge al, 4H RI f-o. FA, EPI AN SCHL AY eR, 
并 以 数值 稳定 的 方式 计算 log softmax。 我 们 可 以 使 用 相同 的 技巧 来 稳定 
log softmax AI 2X - 


在 大 多 数 情 况 下 ， 我 们 没有 明确 地 对 本 书 拉 述 的 各 种 算法 所 涉及 的 数值 
考 谍 进行 详细 说 明 。 在 实现 次 上 度 学 习 算 法 时 ， 撒 层 库 的 开 有 友 者 应 该 牢记 
数值 问题 。 本 书 的 大 多 数 读 者 可 以 人 简单 地 依赖 你 证 数值 稳定 的 的 层 库 。 
在 菜 些 情况 下 ， 我 们 有 可 能 在 实现 一 个 新 的 算法 时 目 动 你 持 数 值 稳定 。 
Theano (Bergstra et al. ，2010a; Bastien et al. , 2012a) 就 是 这 样 软件 
包 的 一 个 例子 ， 它 能 目 动 检测 并 稳定 深度 学 习 中 许多 第 见 的 数值 不 稳定 
的 表达 式 。 


4.2 ”病态 条 件 

条 件数 指 的 是 函数 相对 于 输入 的 微小 变化 而 变化 的 快慢 程度 。 输 入 被 轻 
微 扰动 而 迅速 改变 的 函数 对 于 科学 计算 来 说 可 能 是 有 问题 的 ， 因 为 输入 
中 的 舍 入 误差 可 能 导致 输出 的 巨大 变化 。 


考虑 函数 Flz) = Ar.. SA C ROXY 具有 特征 值 分 解 时 ， 
其 条 件数 为 








max | 一 (4.2) 

i,j j 
这 是 最 大 和 最 小 特征 值 的 模 之 比 负 。 当 该 数 很 大 时 ， 和 珑 阵 求 逆 对 输入 的 
误差 特别 敏感 。 
这 种 敏感 性 是 滤 阵 本 号 的 固有 特性 ， 而 不 是 矩阵 求 逆 期 间 舍 入 误差 的 结 


东 。 即 使 我 们 乘 以 完全 正 硝 的 窍 阵 填 ， 病 态 条 件 的 定 阵 也 会 放大 预先 存 
在 的 误 关 。 在 实践 中 ， 该 钳 误 将 与 求 寺 过 程 本 身 的 数 人 误差 进一步 复 
ZS 
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大 多 数 深度 学 习 算法 都 涉及 某 种 形式 的 优化 。 优 化 指 的 是 改变 x 以 最 小 


MBER AAR PA BUC x ) 的 任务 。 我 们 退 第 以 最 小 化 f( x ) 指 代 大 多 数 最 
优化 问题 。 最 大 化 可 经 由 最 小 化 算法 最 小 化 -f(x ) 来 实现 。 


我 们 把 要 最 小 化 或 最 大 化 的 函数 称 为 目标 函数 (objective function) 或 
准则 (criterion) 。 当 我 们 对 其 进行 最 小 化 时 ， 也 把 它 称 为 代价 函数 

(cost function) ~ JMR KZ Coss function) 或 误 天 图 数 (Cerror 
function) 。 虽 然 有 些 机 和 需 学 习 著 作 赋 了 予 这 些 名 称 特 殊 的 意义 ， 但 在 这 
本 书 中 我 们 交 蔡 使 用 这 些 术 语 。 


我 们 通常 使 用 一 个 上 标 * 表 示 最 小 化 或 最 大 化 函数 的 x 什 ， 如 记 x”=arg 


min {( x )。 


我 们 假设 读者 已 经 熟 壬 做 积分 ， 这 里 重要 回顾 微 积分 概念 如 何 与 优化 联 


AN O 


假设 有 一 个 函 ma x )， 其 中 x 和 y 征 实数 。 这 个 函数 的 导数 
ac 。 PACE Cx ) 代 表 f( x ) 在 点 x 处 的 斜率 。 


换 句 话说 ， 它 表明 如 何 缩放 输入 的 小 变化 才能 在 笨 出 获得 相应 的 变化 
fiz +e) ~ f(t) + ef (1). 
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做 地 改善 y。 例 如 ， 我 们 知道 对 于 足够 小 的 万 来 说 ，f(x-sign Cf '( x ))) 
古 比 f(x DAY. RC BATT BY WR xE FARRA 8 NA RZD x 
)。 这 种 技术 称 为 梯度 下 降 Cgradient descent) (Cauchy, 1847) . BI 
4.1 展 示 了 一 个 例子 。 








全 局 极 大 点 在 z= 0 处 。 
由 于 f(z) = 0， 梯度 下 降 在 此 处 终止 。 


对 于 z<0， FTA 对 于 z>0， 我们 有 


f(z)<0， 因 此 我 们 可 f(z)>0， 因 此 我 们 可 
以 回 右 移动 来 减 小 大 以 问 左 移动 来 减 小 大 








图 4.1 梯度 下 降 。 梯 上 度 下 降 算 法 如 何 使 用 函数 导数 的 示意 图 ， 即 沿 痢 图 数 的 下 坡 方 同 《导数 反 
方向 ) 直到 最 小 


“f'C x )=0 时 ， 叶 数 无 法 提供 往 哪 个 方 同 移动 的 信息 。f (x )=0 的 点 称 为 
临界 点 《critical point) 或 驻 点 (stationary point) 。 a 
(ocal minimum) 意味 着 这 个 点 的 f(x ) 小 于 所 有 邻近 点 ， 因此 不 可 能 通 
过 移动 无 穷 小 的 步 长 来 减 小 f( x )。 一 个 局 部 极 大 点 (local maximum) 
意味 看 这 个 点 的 f( x ) 大 于 所 有 邻近 点 ， 因 此 不 可 能 人 通过 移动 无 穷 小 的 步 
长 来 增 大 f( x )。 有 些 临 界 点 既 不 是 最 小 点 也 不 是 最 大 点 ， 这 些 点 称 为 鞠 
点 (saddle point) 。 见 图 4.2 给 出 的 各 种 临 FAPT 


极 小 点 RRA aol 


图 4.2 ”临界 点 的 类 型 。 一 维 情 况 下 ，3 种 临界 点 的 示例 。 临 界 点 是 和 斜率 为 零 的 点 。 这 样 的 点 可 
以 是 : 局 部 极 小 点 (local minimum) ， 其 值 低 于 相 邻 点 ; 局 部 极 大 点 Cocal maximum) ， 其 
值 高 于 相 令 点; 鞍点， 同时 存在 更 高 和 更 低 的 相 令 点 


io x  ) 取 得 绝对 的 最 小 值 《 相 对 所 有 其 他 值 ) 的 点 是 全 局 最 小 点 





(global minimum) . KAH AER ASA) /) ATES PA a 
小 点 ， 还 可 能 存在 不 是 全 局 最 优 的 全 局 极 小 点 。 在 深度 学 习 的 背景 下 ， 

我 们 要 优化 的 函数 可 能 含有 许多 不 是 最 优 的 全 局 极 小 点 ， 或 者 还 有 很 多 
处 于 非常 平坦 的 区 域内 的 鞍点 。 尤 其 是 当 输 入 是 多 维 的 时 候 ， 所 有 这 些 
都 将 使 优化 变 得 困难 。 因 此 ， 我 们 通常 寻找 使 {非常 小 的 点 ， 但 这 在 任 

何 形式 意义 下 并 不 一 定 是 最 小 ， 如 图 4.3 所 示 的 例子 。 


这 个 局 部 极 小 点 表现 得 几乎 
与 全 局 的 一 样 好 ， 因 此 这 是 
一 个 可 接受 的 终止 点 。 


X | 理想 情况 下 ， 我 们 可 以 
到 达 全 局 极 小 点 ， 然 而 
这 或 许 不 可 能 。 
这 个 局 部 极 小 点 表现 不 好 ， 
应 该 避免 。 
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R43 ”近似 最 小 化 。 当 存在 多 个 全 局 极 小 点 或 平坦 区 域 时 ， 优 化 算法 可 能 无 法 找到 全 局 最 小 

点 。 在 深度 学 习 的 背景 下 ， 即 使 找到 的 解 不 是 真正 最 小 的 ， 但 只 要 它们 对 应 于 代价 函数 显著 低 

的 值 ， 我 们 通常 就 能 接受 这 样 的 解 

我 们 经 常 最 小 化 具有 多 维 输入 的 函数 ， 了 了 : 民 ” 一 > R 。 为 了 使 “最 

小 化 ”的 概念 有 意义 ， 输 出 必须 是 一 维 的 (标量 〉。 

针对 共有 多 维 输入 的 函数 ， 我 们 十 要 用 到 仿 导 数 (partial derivative) 的 
yu O oN cee | 

ME SB f (T ) 衡量 点 x 处 只 有 xi 增加 时 Kx ) 如 何 变化 ， 

ODF . 

PRE Cgradient) 是 相对 一 个 同 量 求 导 的 村 数 : PARE LAA mF 

Mls, WAV, f(a) 。 梯 度 的 第 i 个 元 素 是 f 关 于 x ; 的 偏 导数 。 在 

多 维 情况 下 ， 临 界 点 是 樟 上 度 中 所 有 元 际 都 为 零 的 点 。 

在 u (单位 同 量 ) 方 同 的 方 同 导数 (directional derivative) jE KRŽE u 

AANA. eh, 77 [A SP BE ea f (x T au ) 天 于 a 的 导数 

(在 a=0 时 取得 ) 。 使 用 链 式 法 则 ， 我 们 可 以 看 到 当 a=0 时 ， 








L j (£x + au) = ul Vef(2 ) 


为 了 最 小 化 f， 我 们 希望 找到 使 f 下 降 得 最 快 的 方 同 。 计 算 方向 导数 : 


min wu! V;f(a) (4.3) 
= min Mull Vaf(æ)ll2 cos 8 (4.4) 


其 中 6 是 u 与 梯度 的 夹 角 。 将 | 也 ||2 二 1 代入， 并 忽略 与 u 无 关 的 
项 ， 就 能 简化 得 到 11111] CoS O zt u 与 梯度 方向 相反 时 取得 最 


u 
小 。 换 人 句 话 说 ， 梯 上 度 同 量 指 同上 坡 ， 负 梯度 同 量 指 同 下 坡 。 我 们 在 负 榜 
度 方 回 上 移动 可 以 减 小 。 这 被 称 为 最 速 下 降 法 (method of steepest 
descent) 或 梯度 下 降 (gradient descent) . 


最 速 下 降 建 议 新 的 点 为 
万 = TB— Vosf() (4.5) 


HE HJK Cearning rate) ， 是 一 个 确定 步 长 大 小 的 正 标 量 。 我 
们 可 吉明 过 几 种 不 同 的 方式 选择 人 。 普 人 授 的 方式 是 选择 一 个 小 和 常数 。 
有 时 我 们 通过 计算 ， 选 择 使 方 同 导 数 消 失 的 步 长 。 还 有 一 种 方法 是 根据 
UNE 计算 f(z — eV fla ) ). ， 并 选择 其 中 能 产生 最 小 目标 函数 
NUE 。 这 种 策略 称 为 线 搜索 。 


最 速 下 降 在 梯度 的 每 一 个 元 素 为 零 时 收敛 〈 或 在 实践 中 ， 很 接近 堆 
时 ) 。 在 某 些 情况 下 ， 我 们 也 许 能 够 避免 运行 该 迭代 算法 ， 并 通过 解 方 
EV, f(x) = 0 直接 跳 到 临界 点 。 


虽然 樟 度 下 降 被 限制 在 连续 衬 间 中 的 优化 问题 ， 但 不 断 问 更 好 的 情况 移 
( 即 近 似 了 最 佳 的 小 移动 ) 的 一 般 概 念 可 以 推广 到 离散 空间 。 违 

增 市 有 离散 参数 的 目标 图 数 称 为 爬山 Chill climbing) 算法 (Russel and 
Norvig, 2003) 。 


4.3.1 *6HFEZE: Jacobian Hessian‘ K4 


A S BRANT is BS ai AA i BAG Td eB) PRISE TA BL TA 
这 样 的 偏 导数 的 矩阵 被 称 为 Jacobian 和 矩阵。 有 具体 来 说 ， 由 果 我 们 有 一 个 
函数 f R” + R”., f ‘WJacobianit bt, J C IR” XM 定义 为 


J | 


有 了 时， 我 们 也 对 导数 的 导数 感 兴 趣 ， 即 二 阶 导 数 (second 
derivative) 。 例 如 ， 有 R™ — R ，f 的 一 阶 导 数 〈 关 


Pej) XP ROT oa, = ap: 在 一 维 情况 下 ， 我 们 可 以 将 


Of A f'l) prea, SANN 


ORA WETA. ERI RÆ TS a ARE BBR ee Baer 
生 如 我 们 预期 的 那样 大 的 改善 ， 因 此 它 是 重要 的 。 我 们 可 以 认为 ， 二 阶 
导数 是 对 曲率 的 衡量 。 假设 我 们 有 一 个 二 次 函数 《虽然 很 多 实践 中 的 函 
数 都 不 是 二 次 的 ， 但 至 少 在 局 部 可 以 很 好 地 用 二 次 近似 ) 。 如 果 这 样 的 
KARAEZ MEA, MRA HK, MMe REE FERA, H 
梯度 就 可 以 预测 它 的 值 。 我 们 使 用 ; 沿 负 梯度 方向 大 小 为 人 的 下 降 步 ， 
当 该 梯度 是 1 时 ， 代 价 函 数 将 下 降 仁 。 如 果 二 阶 导数 是 负 的 ， 函 数 曲线 
a) RMB WEGE) , BEAR BCR BREE 2. MRO BS 
ALEIEN), KA hæ EA CAR SED. KERI KRO T pE 
HE 少 。 从 图 4.4 可 以 看 出 不 同形 式 的 曲率 如 何 影响 基于 梯度 的 预测 值 
与 真实 的 代价 函数 值 鸭 关系 。 


A 
EF 
+e 


没有 曲率 正 曲 率 


T 必 T 


14.4 re BU E RAE ATR NA AA REZAR ARE AN BUI DOR 
据 梯 度 信 息 进 行 梯度 下 降 后 预期 的 代价 函数 值 。 对 于 负 曲 率 ， 代 价 函 数 实 际 上 比 梯度 预测 下 降 
得 更 快 。 没 有 曲率 时 ， 梯 上 度 正 确 盾 测 下 降 值 。 对 于 正 曲 紊 ， 代 价 函 数 比 预期 下 降 得 更 慢 ， 并 且 
最 终 会 开始 增加 ， 因 此 太 大 的 步 又 实际 上 可 能 会 无 意 地 增加 函数 值 


当 我 们 的 函数 共有 多 维 输 入 时 ， 二 阶 导 数 也 有 很 多 。 我 们 可 以 将 这 些 导 
数 合并 成 一 个 矩阵 ， 称 为 Hessian Ef. Hessian tH (f)(x) 定义 
为 

日 
OmaT j 
Hessian== r + #6 HE A Jacobian## E . 


ot EF FEAL AA] Mi EEE AD AY ACR, Le" AT BY AY eA E. 
换 : 


H(A)(2)i,; = 





(z) (4.6) 


92 2, 
Onda! ™) 7 Ox; Ox; Ja) co 
这 意味 看 Hij=Hiji， 因 此 Hessian 和 矩阵 在 这 些 点 上 是 对 称 的 。 在 深度 学 习 
背景 下 ， 我 们 过 到 的 大 多 数 函 数 的 Hessian 几 了 乎 处 处 都 是 对 称 的 。 因 为 
Hessian 窜 阵 是 实 对 称 的 ， 我 们 可 以 将 其 分 解 成 一 组 实 特 征 值 和 一 组 特征 
HEEE. FERRET IA d 上 的 二 阶 导 数 可 以 写成 7 Hd >o “4d 
是 H 的 一 个 特征 回 量 时 ， 这 个 方 同 的 二 阶 导 数 融 是 对 应 的 特征 值 。 对 





于 其 他 的 方 同 d ， 方 同 二 阶 寻 数 是 所 有 特征 值 的 加 权 平 均 ， 权 重 在 0 和 1 
CIA, AG d 淡 角 越 小 的 特征 问 量 的 权重 越 大 。 节 大 特征 值 确定 最 大 二 
阶 导 数 ， 节 小 特征 值 确定 最 小 二 阶 导 数 。 


我 们 可 以 通过 《〈 方 网 ) 二 阶 导 数 预 期 一 个 梯度 下 降 步 又 能 表现 得 多 好 。 
我 们 在 当前 点 x © 处 做 函数 fx ) 的 近似 二 阶 泰勒 级 数 : 


Fla) = fe) + (zo) g+3(s -20))" Hs — £0) (4.8) 


EHE g 是 梯度 ， 互 是 x 信 点 的 Hessian。 如 果 我 们 使 用 学 习 率 万 , BA 
新 的 点 x 将 会 是 zz0) 一 Eg ° 代入 上 述 的 近似 ， 可 得 


feni -aafe -a H 5° 9 Hg (4.9) 


其 中 有 3 项 : PRAHA Sa. PR ACR SY PO ei a A Ry BNC H K SB 
WIE. SRA RAAK, PERE PRES Ee eR ke. H 
g' Hg NAA TAY HEALS A eB Re SI 将 永远 使 f 下 降 。 在 
实践 中 ， BW BBA AEE 大 的 时 候 也 保持 准确 ， 因 此 在 这 种 情况 下 
我 们 必须 玉 取 更 具 局 发 式 的 选择 。 当 g Hg 为 正 时 ， 通 过 计算 可 得 ， 
使 近似 泰勒 级 数 下 降 最 多 的 最 优 步 长 为 

。 g's | 

e = al Iie (4.10) 


最 坏 的 情况 下 ， g 与 H 最 大 特征 值 X ，、 对 应 的 特征 向 量 对 齐 ， 则 最 优 
步 长 是 ， 当 我 们 要 最 小 化 的 函数 能 用 二 次 函数 很 好 地 近似 的 情 
况 下 ，Hessian 的 特征 值 决定 了 学 习 率 的 量 级 。 


三 阶 导数 还 可 以 用 于 确定 一 个 临界 点 是 人 否 是 局 部 极 大 点 、 全 局 极 小 点 或 
轰 点 。 回 想 一 下 ， 在 临界 点 处 f "(x )=0。 PM St aceite (x ) 会 随 看 
RIJE BALMIKI, AAMIR, Etf (x -Ee)<0 和 和 f '( x +e)>0 
对 足够 小 的 和 成 立 。 换 句 话 说 ， 当 我 们 移 同 右边 ， 冬 识 开始 指 癌 右边 
HEB “SBN zz, RRA SSRI ACI EDK. ACRE Ha 

论 ， 当 请 (x )=0 用 F"(x )>0 时 ，x 是 一 个 全 局 极 小 点 。 同 理 ， 当 f "(x )=0 





Af "( x )<0 时 ， x 是 一 个 局 部 极 大 点 。 这 束 古 所 谓 的 二 阶 导 数 测 试 
(second derivative test) > DÆ, Hf "( x )=0 时 ， 测 试 是 不 确定 
的 。 在 这 种 情况 下 ，x 可 以 古 一 个 腥 点 或 平坦 区 域 的 一 部 分 。 


在 多 维 情况 下 ， 我 们 需要 检测 函数 的 所 有 二 阶 导数 。 利 用 Hessian 的 特征 
值 分 解 ， 我 们 可 以 将 二 阶 导 数 测 试 扩展 到 多 维 情况 。 在 临界 点 处 
(Vaf(x) 二 0) ， 我 们 通过 检测 Hessian 的 特征 值 来 判断 该 临界 点 是 
一 个 局 部 极 大 点 、 全 局 极 小 点 还 是 逻 点 。 当 Hessian 古 正定 的 〈 所 有 特征 
值 都 是 正 的 ) ， 则 该 临界 点 是 全 局 极 小 点 。 因 为 方向 二 阶 导数 在 任意 方 
向 都 是 正 的 ， 参 考 单 变量 的 二 阶 导数 测试 就 能 得 出 此 结论 。 同 样 的 ， 当 
Hessian 是 负 定 的 《所 有 特征 值 都 是 负 的 ) ， 这 个 点 束 是 局 部 极 大 皮 。 在 
多 维 情况 下 ， 实 际 上 我 们 可 以 找到 确定 该 点 是 否 为 鞍点 的 积极 迹象 GE 
些 情况 下 ) 。 如 果 Hessian 的 特征 值 中 至 少 一 个 是 正 的 且 至 少 一 个 是 负 
的 ， 那 么 x 是 f 某 个 横 截 面 的 局 部 极 大 点 ， 却 是 另 一 个 横 截 面 的 全 局 极 
小 点 ， 如 图 4.5 所 示 。 最 后 ， 多 维 二 阶 导数 测试 可 能 像 单 变量 版 本 那样 
是 不 确定 的 。 当 所 有 非 零 特征 值 是 同 号 的 且 至 少 有 一 个 特征 值 是 0 时 ， 
这 个 检测 就 是 不 确定 的 。 这 是 因为 单 变量 的 二 阶 导数 测试 在 零 特征 值 对 
应 的 横 截 面 上 是 不 确定 的 。 


Anm) 





图 4.5“ 既 有 正 曲率 又 有 负 曲率 的 鞍点 。 示 例 中 的 函数 是 (Zz) = x? 一 Z3 . RANK] HF 
上 弯曲 。x 1 轴 是 Hessian 的 一 个 特征 向 量 ， 并 且 具 有 正 特 征 值 。 函 数 沿 x ” 轴 向 下 弯曲 。 该 方向 
对 应 于 Hessian 负 特征 值 的 特征 向 量 。 名 称 “鞍点 ” 源 自 该 处 函数 的 鞍 状 形状 。 这 是 具有 鞍点 函数 
的 典型 示例 。 维 度 多 于 一 个 时 ， 鞍 点 不 一 定 要 具有 0 特征 值 ， 仅 需要 同时 具有 正 特征 值 和 负 特 征 
值 。 我 们 可 以 想象 这 样 一 个 鞍点 (具有 正 负 特 征 值 ) 在 一 个 横 截 面 内 是 局 部 极 大 点 ， 而 在 男 一 
个 横 截面 内 是 全 局 极 小 点 





多 维 情况 下 ， 单 个 点 处 每 个 方向 上 的 二 阶 导 数 是 不 同 的 。Hessian 的 条 件 
数 衡量 这 些 二 阶 导数 的 变化 范围 。 当 Hessian 的 条 件数 很 差 时 ， 梯 度 下 降 
法 也 会 表现 得 很 甜 。 这 是 因为 一 个 方 同 上 的 导数 增加 得 很 快 ， 而 在 另 一 
个 方向 上 增加 得 很 慑 。 梯 上 度 下 降 不 知道 导数 的 这 种 变化 ， 所 以 它 不 知道 
应 该 优先 探索 导数 长 期 为 负 的 方向 。 病 态 条 件 也 导致 很 难 选择 合适 的 步 
Ko SKRUER, Uh RA EE KA EF 
XEF RATA), METER ERUAN H LEE Re AS E, 
如 图 4.6 所 示 。 


我 们 可 以 使 用 Hessian 窍 阵 的 信息 来 指导 搜索 ， 以 解决 这 个 问题 。 其 中 最 
简单 的 方法 是 牛顿 法 (Newton's method) 。 和 牛顿 法 基于 一 个 二 阶 泰 勒 
展开 来 近似 x 附近 的 f(x ): 


f(z) © f(@) + (æ -= a ) Ve f(a) + z(a -~ 2)" H(z zr) (4.11) 


RER, RATE NIE RAA K CE Mt R: 
z* =z — H (f) (2) Va f(c) (4.12) 


WREE —DNEE RKG FAR EMH ARIA (4.12) mpe AZ 
到 函数 的 最 小 点 。 如 果 f 不 是 一 个 真正 二 次 但 能 在 局 部 近似 为 正定 二 
次 ， 和 牛顿 法 则 需要 多 次 欠 代 应 用 式 〈4.12) 。 和 迭代 地 更 新 近似 函数 和 跳 
到 近似 图 数 的 最 小 点 可 以 比 梯度 下 降 更 快 地 到 达 临 界 点 。 这 在 接近 全 局 
极 小 点 时 是 一 个 特别 有 用 的 性 质 ， 但 是 在 鞍点 附近 是 有 害 的 。 正 如 本 书 
第 8.2.3 节 所 讨论 的 那样 ， 当 附近 的 临界 点 是 最 小 点 《Hessian 的 所 有 特征 
Pen TRE EE E EA 
fa AR) 。 
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图 4.6 ”梯度 下 降 无 法 利用 包含 在 Hessian 矩 阵 中 的 曲率 信息 。 这 里 我 们 使 用 梯度 下 降 来 最 小 化 
Hessian 矩 阵 条 件数 为 5 的 二 次 函数 f x )。 这 意味 着 最 大 曲率 方向 具有 比 最 小 曲率 方向 多 5 倍 的 曲 
率 。 在 这 种 情况 下 ， 最 大 曲率 在 [1, 1] ”方向 上 ， 最 小 曲率 在 [1, 一 1] "方向 上 。 红 线 表示 梯 月 
下 降 的 路 径 。 这 个 非常 细 长 的 二 次 函数 类 似 一 个 长 峡谷 。 梯 度 下 降 把 时 间 浪 费 于 在 峡谷 壁 反复 
F 降 ， 因 为 它们 是 最 陡峭 的 特征 。 由 于 步 长 有 点 大 ， 有 超过 函数 底部 的 趋势 ， 因 此 需要 在 下 一 
次 迭代 时 在 对 面 的 峡谷 壁 下 降 。 与 指向 该 方向 的 特征 向 量 对 应 的 Hessian 的 大 的 正 特征 值 表示 该 
方向 上 的 导数 快速 增加 ， 因 此 基于 Hessian 的 优化 算法 可 以 预测 ， 在 此 情况 下 最 陡峭 方向 实际 上 
不 是 有 前 途 的 搜索 方向 


仅 使 用 棉 度 信息 的 优化 算法 称 为 一 阶 优化 算法 (first-order optimization 
algorithms) ， 如 梯度 下 降 。 使 用 Hessian 宅 阵 的 优化 算法 称 为 二 阶 最 优 
化 算法 (second-order optimization algo-rithms) (Nocedal and Wright, 
2006) ， 如 牛顿 法 。 


本 书 大 多 数 上 下 文中 使 用 的 优化 算法 适用 于 各 种 各 样 的 函数 ， 但 几乎 都 
没有 理论 你 证 。 因 为 在 深度 学 习 中 使 用 的 函数 族 是 相当 复 森 的， 所 以 深 
度 学 习 算法 往往 缺乏 理论 傈 证 。 在 许多 其 他 领域 ， 优 化 的 主要 方法 是 为 

















有 限 的 函数 族 设计 优化 算法 。 


在 深度 学 习 的 背景 下 ， 限 制 函数 满足 Lipschitz 连 续 (Lipschitz 
continuous) 或 其 导数 Lip-schitz 连 续 可 以 获得 一 些 你 证 。Lipschitz 连 续 函 
数 的 变化 速度 以 Lipschitz 币 数 (Lipschitz constant) e 为 寞 : 


Ve, Vy, |f(#) — fly)| < Lle — ylle (4.13) 


LABE VE TOE AT Be 1 A CY Bc aA EB Be Si YS Se SY ANY Gi 
小 变化 将 使 输出 只 产生 微小 变化 ， 因 此 是 很 有 用 的 。Lipschitz 连 续 性 也 

是 相当 弱 的 约束 ， 并 且 深 上 度 学 习 中 很 多 优化 问题 经 过 相对 较 小 的 修改 后 
就 能 变 得 Lipschitz 连 续 。 


最 成 功 的 特定 优化 领域 或 许 是 凸 优化 (Convex optimization) > hM, 
ROW A Me ra ee FBS RE. POE R A ee BOG, BY 
Hessian 处 处 半 正 定 的 函数 。 因 为 这 些 函 数 没有 考点 而 且 其 所 有 全 局 极 小 
点 必然 是 全 局 最 小 点 ， 所 以 表现 很 好 。 然 而 ， 深 上 度 学 习 中 的 大 多 数 问 题 
都 难以 表示 成 凸 优化 的 形式 。 吓 优化 仅 用 作 一 些 深 度 学 习 算 法 的 子 程 
友 。 同 优化 中 的 分 析 思 路 对 证 明 深 上 度 学 习 算 法 的 收 合 性 非 第 有 用 ， 然 而 
一 般 来 说 ， 深 皮 学 习 背 景 下 同 优 化 的 重要 性 大 大 减少 。 有 关 曲 优化 的 详 
细 信 息 ， 详 见 Boyd and Vandenberghe (2004) 或 Rockafellar (1997) 。 


44 约束 优化 


有 时 候 ， 在 x 的 所 有 可 能 值 下 最 大 化 或 最 小 化 一 个 函数 f(x) 不 是 我 们 所 
PEAR. AA, PAA Re As HE x HERES HEREC x ) 的 最 大 值 或 
最 小 值 。 这 称 为 约束 优化 Cconstrained optimization) 。 在 约束 优化 术 
语 中 ， 集合 SS 内 的 点 x 称 为 可 行 (feasible) Ko 


我 们 常常 希望 找到 在 某 种 意义 上 小 的 解 。 针 对 这 种 情况 下 的 常见 方法 是 
强加 一 个 范 数 约束 ， 如 ||z2|| <1. 


约束 优化 的 一 个 简单 方法 是 将 约束 考虑 在 内 后 简单 地 对 梯度 下 降 进行 修 
改 。 如 果 使 用 一 个 小 的 恒定 步 长 、”， 我 们 可 以 先 取 梯度 下 降 的 单 步 结 
果 ， 然 后 将 结果 投影 回 SG 。 如 果 使 用 线 搜索 ， 我 们 只 能 在 步 长 为 全 W 
围 内 搜索 可 行 的 新 x 点 ， 或 者 可 以 将 线 上 的 每 个 点 投影 到 约束 区 域 。 如 


果 可 能 ， 在 梯度 下 降 或 线 搜索 前 将 梯度 投影 到 可 行 域 的 切 空间 会 更 局 效 
(Rosen, 1960) . 

一 个 更 复 洒 有 的 方法 是 设计 一 个 不 同 的 、 无 约束 的 优化 问题 ， 其 解 可 以 转 
化 成 原始 约束 优化 问题 的 解 。 例 如 ， 我 们 要 在 mr = R2 中 最 小 化 f( x 
L 其 中 x AURA TH HALL “ ， 范 数 。 我 们 可 以 关于 6 最 小 化 
g(@) = f ({cos 8, sin 6] | )”， 最 后 返回 Lcosð, sind] 作为 原 问 题 的 
解 。 这 种 方法 需要 创造 性 ， 优 化 问题 之 间 的 转换 必须 专门 根据 我 们 过 到 
的 每 一 种 情况 进行 设计 。 

gr Kuhn-Tucker (KKT) 方法 乌 - 是 针对 约束 优化 非常 通用 的 解决 

。 为 介绍 KKT 方 法 ， 我 们 引入 一 个 称 为 广义 Lagrangian 


ne le Lagrangian) YJ X Lagrange žr (generalized Lagrange 
function) HJ% KZT. 


X T 7 X Lagrangian, BSE BE AIAN GATE SOILS 。 我 们 
希望 通过 m aan 和 n 个 函数 h © ARES , BAS 可 以 表示 为 
5 = {z | vi, g(x) = 0 and Yj, hi) (x) <0} 。 其 中 涉及 g © 
HSF 式 称 ， na (equality constraint) ， 涉 及 h © Mad 式 称 为 不 

等 式 约 束 Cineduality constraint) 。 
我 们 为 每 个 约束 引入 新 的 变量 和 ; Majo LET AC EK AKKTHE F 
厂 义 Lagrangian9] 以 定义 为 

L(x, A, a) *) + i g(a) + > ajh (a) (4.14) 

现在 ， 我 们 可 以 通过 优化 无 约束 的 广义 Lagrangian 解 雇 约 束 最 小 化 问 
题 。 只 要 存在 至 少 一 个 可 行 点 且 fx ) 不 允许 取 co， 和 那么 


min max max Dai, A a) (4.15) 
入 a>0 


Sun F RAA AH E Ae OC hs PB A ee 
min 站 人 (4.16) 


这 是 因为 当 约 束 满足 时 ， 


max ety = | (4.17) 
违反 任意 约束 时 ， 
max max (a, A, oe) = co (4.18) 


ee 征 最 佳 的 ， 并 且 可 行 点 范围 内 的 最 优点 不 


mi 


要 解决 约束 最 大 化 问题 ， 我 们 可 以 构造 -f( x DS X Lagrange, MA 
而 导致 以 下 优化 问题 : 


En AD 4.19 
min max n max f(a) + a gt ) 十 *)+ Dues ue a ( ) 


我 们 也 可 将 其 转换 为 在 外 层 最 大 化 的 问题 : 


max min n min m ) + 2 rig" pO Qj h) (x) (4.20) 
等 式 约束 对 应 项 的 符 写 并 不 重要 ， 因 为 优化 可 以 自由 选择 每 个 ~; 的 和 从 
写 ， 我 们 可 以 随意 将 其 定义 为 加 法 或 减法 。 


NERA RIN A. WRA (zx*) 二 0 ， 我 们 就 说 说 这 个 约束 h ( 
x ) 是 活跃 (active) 的 。 如 果 约 束 不 是 活跃 的 ， 则 有 该 约束 的 问题 的 解 
与 去 掉 该 约束 的 问题 的 解 至 少 存在 一 个 相同 的 局 部 解 。 一 个 不 活跃 约束 
有 可 能 排除 其 他 解 。 例 如 ， 整 个 区 域 〈 代 价 相等 的 宽 平 区 域 ) 都 是 全 局 
最 优点 的 的 凸 问题 可 能 因 约 束 消去 其 中 的 某 个 子 区 域 ， 或 在 非 凸 问题 的 
情况 下 ， 收 敛 时 不 活跃 的 约束 可 能 排除 了 较 好 的 局 部 驻 点 。 然 而 ， 无 论 
不 活跃 的 约束 是 否 被 包括 在 内 ， 收 敛 时 找到 的 点 仍然 是 一 个 驻 点 。 因 为 
一 个 不 活跃 的 约束 h © 必 有 负 值 ， 那 么 
min max max L(@,A,Q@) gw -0. pase. 我们 
L A Aa,aZ0 | 
可 以 观察 到 在 该 解 中 Q © h(x) = 0 。 换 句 话说， 对 于 所 有 的 
iy Cy; > OBA (x) < O 在 收敛 时 必 有 一 个 是 活跃 的 为 了 获得 


关于 这 个 想法 的 一 些 直 观 解 释 ， 我 们 可 以 说 这 个 解 是 由 不 等 式 强 加 的 边 
界 ， 我 们 必须 通过 对 应 的 KKT 乘 子 影响 x 的 解 ， 或 者 不 等 式 对 解 没 有 影 
Me), FATWA A KKTIE F . 

BEAT] AY LE H — H f FE OR IAA OR LL la) EER TEE 
PK AYKarush-Kuhn-Tucker (KKT) 4 (Karush, 1939: Kuhn and 
Tucker, 1951) 。 这 些 是 确定 一 个 点 是 最 优点 的 必要 和 条件， 但 不 一 定 是 
充分 条 件 。 这 些 条 件 是 : 


e | X Lagrangian h ENE. 

。 所 有 关于 x 和 KKT 乘 子 的 约束 都 满足 。 
有 天 KKT 方 法 的 详细 信息 ， 请 参阅 Nocedal and Wright (2006) 。 
45 实例 : 线性 最 小 二 乘 
假设 我 们 希望 找到 了 最 小 化 下 式 的 x 值 


1 r 
f(z) = 5||Aw — bl (4.21) 


存在 专门 的 线性 代数 算法 能 够 高 效 地 解决 这 个 问题 ， 但 是 我 们 也 可 以 探 
过 如 何 使 用 基于 梯度 的 优化 来 解决 这 个 问题 ， 这 可 以 作为 这 些 技 术 是 如 
何 工作 的 一 个 简单 例子 。 
首先 ， 我 们 计算 梯 虔 

Vif(a)=A!'(Ara—b)=A!Aax—A'b (429) 


然后 ， 我 们 可 以 采用 小 的 步 长 ， 并 护照 这 个 梯度 下 降 ， 见 算法 4.1 中 的 
详细 信息 。 





算法 4.1 从 任意 点 ”x Ha, MHAR PERF x 最 小 化 
f(x) = 3||Azw — b||? 的 算法 。 


~ 





HERK CE) AMAZE (6) 设 为 小 的 正 数 。 
while ||A' Az — A 0 > ô do 
£ z-e( AAs- A'b) 


end while 





BEAT Jt BY LE H AE AA a ALA Ea SR, AE RR BE 
二 次 的 ， 牛 顿 法 所 用 的 三 次 近似 是 精确 的 ， 该 算法 会 在 一 步 后 收敛 到 全 
局 最 小 点 。 


现在 假设 我 们 希望 最 小 化 同样 的 函数 ， 但 受 m | = =] 的 约束 。 要 做 
到 这 一 点 ， 我 们 引入 Lagrangian 


L(x,) = f(a) +A(@' z — 1) (4.23) 
现在 ， 我 们 解决 以 下 问题 

min max L(æ,A) (4.24) 
se — Ah 找到 无 约束 最 小 二 乘 问 


题 的 最 小 施 数 解 。 如 来 这 一 是 如 行 的 ， 那么 这 也 是 约束 问题 的 解 。 酝 
则 ， BD AAA RR HIE. KY x 对 Lagrangian 微 分 ， 我 们 得 
到 方程 


A'Ax—A'b+2\2 =0 (4.25) 
WUE, VARA TB SCHS E 
—(A'A+2\1)1A'b (4.26) 


入 的 选择 必须 使 结果 服从 约束 。 我 们 可 以 关于 入 进行 梯度 上 升 找到 这 
值 。 为 了 做 到 这 一 点 ， 观 察 
ð 


z L(#.A) = a'a2—1 (4.27) 


4 x 的 范 数 超过 1 时 ， 访 导数 是 正 的 ， 所 以 为 了 跟随 导数 上 坡 并 相对 》 增 
加 Lagrangian， 我 们 需要 增加 和 。 因 为 jp。 p 的 惩罚 系数 增加 了 ， 求 解 
关于 x 的 线性 方程 现在 将 得 到 具有 较 小 范 数 的 解 。 求 解 线性 方程 和 调整 
的 过 程 将 一 直 持续 到 x 具有 正确 的 范 数 ， 并 且 关 于 X 的 导数 是 0。 


本 章 总 结 了 开 及 机 天 学 习 算 法 所 需 的 数学 基础 。 现 在 ， 我 们 已 经 为 建立 
和 分 析 一 些 成 玖 的 学 习 系 统 做 好 了 谁 备 。 





(1) 译 者 注 : 与 通 第 的 条 件数 定义 有 上 所 不 同 。 
(2) KKT 方 法 是 Lagrange 乘 子 法 (只 人 允许 等 式 约束 ) 的 推广 。 
Pots we S Ha AAA ~ 
第 5 章 ”机 器 学 习 基 础 


深度 学 习 是 机 吉 学 习 的 一 个 特定 分 文 。 我 们 要 想 宛 分 理解 深度 学 习 ， 必 
须 对 机 器 学 习 的 基本 原理 有 深刻 的 理解 。 本 章 将 探讨 贯穿 本 书 其 余部 分 
的 一 些 机 器 学 习 的 重要 原理 。 我 们 建议 新 手 谈 者 或 是 希望 更 全 面 了 解 的 
该 者 参考 一 些 更 全 面 禾 凋 基础 知识 的 机 顽 学 习 参 考 书 ， 例 如 

Murphy (2012) 或 者 Bishop (2006) 。 如 果 你 已 经 熟知 机 器 学 习 ， 可 以 
路 过 前 面 的 部 分 ， 前 往 第 5.11 节 。 第 5.11 节 涵盖 了 一 些 传统 机 器 学 习 技 
术 观 点 ， 这 些 扩 术 对 深度 学 习 的 及 展 有 痢 深 远 影 啊 。 


首先 ， 我 们 将 介绍 学 习 算 法 的 定义 ， 并 介绍 一 个 简单 的 示例 : 线性 回归 
算法 。 接 下 来 ， 我 们 会 探讨 拟 合 训练 数据 与 寻找 能 够 沁 化 到 新 数据 的 模 
式 存 在 哪些 不 同 的 挑战 。 大 部 分 机 右 学 习 算 法 部 有 超 参 数 〈 必 须 在 学 习 
算法 外 设 定 ) ， 我 们 将 探讨 如 何 使 用 额外 的 数据 设置 超 参 数 。 机 弄 学 习 
本 质 上 属于 应 用 统计 学 ， 喝 多 地 关注 于 如 何 用 计算 机 统计 地 估计 复 森 隙 
数 ， 不 太 关 注 为 这 些 函 数据 供 置 信 区 间 ， 因 此 我 们 会 探讨 两 种 统计 学 的 
主要 方法 : 频率 派 估 计 和 贝 叶 斯 推断 。 大 部 分 机 器 学 习 算 法 可 以 分 成 监 
督学 习 和 无 监督 和 学习 两 类 ， 我 们 将 探讨 不 同 的 分 类 ， 并 针对 每 个 分 类 所 
共 一 些 乞 持 的 机 各 学 习 算 法 作为 示例 。 大 部 分 深度 和 学习 算法 部 十 基于 被 
称 为 随机 梯度 下 降 的 算法 求解 的 。 我 们 将 介绍 如 何 组 合 不 同 的 算法 部 

分 ， 例 如 优化 算法 、 代 价 函 数 、 模 型 和 数据 集 ， 来 建立 一 个 机 和 乾 学 习 算 
法 。 最 后 在 第 5.11 刘 ， 我 们 会 介绍 一 些 限制 传统 机 此 学 习 沁 化 能 力 的 因 


素 。 这 些 挑战 促进 了 解决 这 些 问 题 的 深度 学 习 算法 的 发 展 。 
5.1 学 习 算 法 


机 霹 学 习 算 法 是 一 种 能 够 从 数据 中 学 习 的 算法 。 然 而 ， 我 们 所 谓 的 “学 
{tA BE? Mitchell (1997) 提供 了 一 个 简洁 的 定义 : “对 于 某 
类 任务 T 和 人 性 能 度量 P， 一 个 计算 机 程序 被 认 为 可 以 从 经 验 E 中 学 习 是 

指 ， 通 过 经 验 E 改 进 后 ， 它 在 任务 T 上 由 性 能 度量 P 衡 量 的 性 能 有 所 提 

升 。” 经 验 E、 任 务 T 和 性 能 度量 P 的 定义 范围 非常 宽广 ， 在 本 书 中 我 们 

并 不 会 试图 去 解释 这 些 定 义 的 具体 意义 。 相 反 ， 我 们 会 在 接 下 来 的 章节 
中 提供 直观 的 解释 和 示例 来 介绍 不 同 的 任务 、 性 能 度量 和 经 验 ， 这 些 将 
被 用 来 构建 机 器 学 习 算 法 。 


5.1.1 任务 T 


机 必 学 习 可 以 让 我 们 解决 一 些 人 为 设计 和 使 用 确定 性 程序 很 难 解决 的 问 
lo MEMES RRA, Dhar] ZA RE, ce AA GE i 
BA Las Ad WU a e pe ra RA] BO ei JY BE 


MAER EN FEY TE SUI KE XM ED, FANERA ARENES. ADE 
BOI ATIS AR TEMES IED Ain, BI A te Las A REIT 
E, ABATE EES. RII Wan RELL as As a TE, Bae AY 
JA TRENS RI AS Lae A UITE « 


1 is DLs ED FE MAL AE) LZ UU By Ah PE AS 
(example) . FRAZER TM AEE ts BL as HH) AR SAE ET eB 
件 中 收集 到 的 已 经 量化 的 特征 《feature) 的 集合 。 我 们 通常 会 将 样本 表 
TR Se C (R ， 其 中 向 量 的 每 一 个 元 素 x ; 是 一 个 特征 。 
例如 ， 一 张 图 厂 的 特征 通常 是 指 这 张 图 片 的 像 系 值 。 

大 


机 器 学 习 可 以 解决 很 多 类 型 的 任务 。 一 些 非常 常见 的 机 器 学 习 任 务 列举 
如 下 。 


。 分 类 : ”在 这 类 任务 中 ， 计 算 机 程序 需要 指定 某 些 输入 属于 k 类 中 的 
哪 一 类 。 为 了 完成 这 个 任务 ， 学 习 算 法 通常 会 返回 一 个 函数 
f: R? >11, k} 。 当 y=f( x ) 时 ， 模 型 将 向 量 x 所 代表 





— 


的 输入 分 类 到 数字 人 码 y 所 代表 的 类 别 。 还 有 一 些 其 他 的 分 类 问题 ， 
例如 ，f 输 出 的 是 不 同类 别 的 概率 分 布 。 分 类 任务 中 有 一 个 任务 是 
WARE, FAA A GH ZARA Bem), FAT 
是 表示 图 上 厂 物体 的 数字 人 码 。 例 如 ，Willow Garage PR2#LA5 A HERA 
务 员 一 样 识别 不 同 饮料 ， 并 送 给 点 餐 的 顾 容 (Goodfellow et al. , 
2010) 。 目 前 ， 最 好 的 对 象 识 别 工 作 正 是 基于 深度 学 习 的 
(Krizhevsky et al. , 2012a; Ioffe and Szegedy, 2015) 。 对 象 识 别 
ey He ET EAL TR BA I RASS, AF So A A A 
fsx (Taigmanetal., 2014) , AHF ple HASHA H.. 
输入 缺失 分 类 :  ” 妆 输 入 同 量 的 每 个 度量 不 被 保证 时 ， 分 类 问题 将 
会 变 得 更 有 挑战 性 。 为 了 解雇 分 类 任务 ， 学 习 算 法 只 需要 定义 一 个 
从 输入 同 量 映射 到 输出 次 别 的 函数 。 当 一 些 输入 可 能 丢失 时 ， 学 习 
算法 必须 学 习 一 组 函数 ， 而 不 是 单个 分 类 函数 。 每 个 函数 对 应 看 分 
类 具有 不 同 缺 失 输入 子 集 的 x 。 这 种 情况 在 医疗 诊断 中 经 音 出 现 ， 
因为 很 多 类 型 的 医学 测试 是 郧 贵 的 ， 对 里 体 有 害 的 。 有 效 地 定义 这 
样 一 个 大 集合 函数 的 方法 是 学 习 所 有 相关 变量 的 概率 分 布 ， 然 后 通 
过 边缘 化 缺失 变量 来 解决 分 类 任务 。 使 用 n 个 输入 变量 ， 我 们 现在 
可 以 获得 每 个 可 能 的 缺失 输入 集合 所 需 的 所 有 2 2 AN ANTRI AY R 
数 ， 但 是 计算 机 程序 仅 需 要 学 习 一 个 摘 述 联合 概率 分 布 的 图 数 。 参 
见 Goodfellow et al. (2013d) 了 解 以 这 种 方式 将 深度 概率 模型 应 用 
于 这 次 任务 的 示例 。 本 节 中 描述 的 许多 其 他 任务 也 可 以 推广 到 缺失 
输入 的 情况 ;缺失 输入 分 类 只 是 机 喜 学 习 能 够 解决 的 问题 的 一 个 示 
例 。 

回归 : ”在 这 美 任务 中 ， 计 算 机 程序 需要 对 给 定 输 入 预测 数值 。 为 
了 解决 这 个 任务 ， 学 习 算法 需要 输出 函数 三 : IR" — R- 除了 
返回 结果 的 形式 不 一 样 外 ， 这 类 问题 和 分 类 问题 是 很 像 的 。 这 类 任 
务 有 的 一 个 示例 是 预测 投保 人 的 索赔 金额 (用 于 设置 保险 费 ) ， 或 者 
了 预测 证 券 末 来 的 价格 。 这 类 预测 也 用 在 算法 交易 中 。 

转录 : ”在 这 类 任务 中 ， 机 如 学 习 系 统 观 测 一 些 相 对 非 结 构 化 表示 
的 数据 ， 并 转录 信息 为 离散 的 文本 形式 。 例 如 ， 交 学 字符 识别 要 求 
计算 机 程序 根据 文本 图 片 返 回 文学 序列 〈ASCII 码 或 者 Unicode 

AS) 。 合 歌 街 景 以 这 种 方式 使 用 深 在 学 习 处 理 街道 编号 
(Goodfellow et al. ，2014d) 。 为 一 个 例子 是 语 首 识别 ， 计 算 机 程 
序 输入 一 段 音 频 波 形 ， 输 出 一 序列 音频 记录 中 所 说 的 字符 或 单词 ID 
的 编码 。 深 度 学 习 是 现代 语音 识别 系统 的 重要 组 成 部 分 ， 被 各 大 公 


司 广泛 使 用 ， 包 括 微软 、IBM 和 和 谷歌 (Hinton etal., 2012b) 。 
NLR: 在 这 类 任务 中 ， 输 入 是 一 种 语言 的 符号 序列 ， 计 算 机 
程序 必须 将 其 转化 成 另 一 种 语言 的 符号 序列 。 这 通 第 适用 于 目 然 语 
BS WRB ERE. mI, RESA CARRERAS Er 
生 重 要 影响 (Sutskever etal., 2014; Bahdanau etal. , 2015) 。 
结构 化 输出 : = I eH ES ST ED) eB eS Se MB 
EN ae a he), FP AL a HY HEE AS Pe] oo A A EAR. IKE 
MIRRA OR, FLFR EIR RIES ABE ES ZEA WE BE 
务 。 例 如 语法 分 析 了 映射 目 然 语言 句子 到 语法 结构 树 ， 并 标记 树 
的 节点 为 动词 、 名 词 、 副 词 等 。 参 考 Collobert (2011) KREZA 
应 用 到 语法 分 析 的 示例 。 另 一 个 例子 是 图 像 的 像素 级 分 制 ， 将 每 一 
个 像素 分 配 到 特定 类 列 。 例 如 ， 深 度 学 习 可 用 于 标注 册 担 照片 中 的 
道路 位 置 (Mnih and Hinton, 2010) 。 在 这 些 标 注 型 的 任务 中 ， 输 
出 的 结构 形式 不 需要 和 输入 尽 可 能 相似 。 例 如 ， 在 为 图 片 添加 质 述 
的 任务 中 ， 计 算 机 程序 观察 到 一 幅 图 ， 输 出 搬 述 这 幅 图 的 目 然 语言 
“J (Kiros etal., 2014a, b; Mao etal. , 2014; Vinyals et al. , 
2015b; D onahue etal. , 2014; Karpathy and Li, 2015; Fang et al. 
, 2015; Xu etal. , 2015) . IKERRI TES, 2 
K Ai HE ZB] ABSA. WIE, A Ar as on ed ee a 
的 单词 必须 组 合成 一 个 通顺 的 句子 。 

寞 和 党 检测: 在 这 类 任务 中 ， 计 算 机 程序 在 一 组 事件 或 对 象 中 得 
选 ， 并 标记 不 正常 或 非典 型 的 个 体 。 异 第 检测 任务 的 一 个 示例 是 信 
用 卡其 诈 检 测 。 通 过 对 你 的 购买 习惯 建 模 ， 信 用 卡 公 司 可 以 检测 到 
你 的 卡 是 售 委 得 用 。 如 果 守 贼 禄 取 你 的 信用 卡 或 信用 卡 信 息 ， 和 傻 贴 
采购 物品 的 分 布 通 章 和 你 的 不 同 。 当 访 卡 发 生 了 不 正常 的 购买 行为 
上 时， 信用 卡 公 司 可 以 尽快 冻结 该 卡 以 防 其 诈 。 参 考 Chandola et al. 
(2009) 了 解 其 诈 检 测 方法 。 

合成 和 采样 : “在 这 类 任务 中 ， 机 需 学 习 程 序 生成 一 些 和 训练 数据 
相似 的 新 样本 。 通 过 机 器 学 习 ， 合 成 和 采样 可 能 在 并 体 应 用 中 非 帝 
有 用 ， 可 以 避免 亏 术 家 大 量 早 贯 或 者 乏味 费时 的 手动 工作 。 例 如 ， 
视频 游戏 可 以 目 动 生成 大 型 物体 或 风景 的 纹理 ， 而 不 是 让 艺术 家 于 
动 标 记 每 个 像素 (Luo etal., 2013) 。 在 某 些 情况 下 ， 我 们 希望 采 
样 或 合成 过 程 可 以 根据 给 定 的 输入 生成 一 些 特定 类 型 的 输出 。 例 
如 ， 在 语音 合成 任务 中 ， 我 们 提供 书写 的 句子 ， 要 求 程 序 输出 这 个 
人 句子 语音 的 音频 波形 。 这 是 一 次 结构 化 输出 任务 ， 但 是 多 了 每 个 输 
入 并 非 只 有 一 个 正确 输出 的 和 条件， 并且 我 们 明确 硕 望 输出 有 很 多 变 





化 ， 这 可 以 使 结束 看 上 去 更 加 目 然 和 真实 。 


。 GRAM: 在 这 类 任务 中 ， 机 融和 学 习 算法 给 定 一 个 新 样本 
ge E RP., x Pees RA. HEA thi MR AIA. 
。 Ale: FERED P, Dla] GAIA ce, TEA 


y C Rezika CR”. 
算法 根据 损坏 后 的 样本 记 预测 干净 的 样本 x ， 或 者 更 一 般 地 预测 
条 件 概率 分 布 D(2P | T) 

密度 估计 或 概率 质量 函数 估计 : 在 密度 估计 问题 中 ， 机 规 学 习 算 
法 学 习 函 数 p model : IR” 一 -一 IR 》 其 中 p model ( X ) 可 以 解释 成 
样本 采样 空间 的 概率 密度 函数 〈 如 朱 x 契 连续 的 ) 或 者 概率 质量 消 
数 〈《 如 朱 x 古 离散 的 ) 。 要 做 好 这 样 的 任务 《在 讨论 性 能 度量 P 时 ， 
我 们 会 明确 定义 任务 是 什么 ) ， 算 法 需要 学 习 观 测 到 的 数据 的 结 
构 。 算 法 必须 知道 什么 情况 下 样本 聚集 出 现 ， 什 么 情况 下 不 太 可 能 
出 现 。 以 上 插 述 的 大 多 数 任务 部 要 求学 习 算 法 至少 能 隐 式 地 捕获 概 
率 分 布 的 结构 。 密 度 估计 可 以 让 我 们 显 式 地 捕获 该 分 布 。 原 则 上 ， 
我 们 可 以 在 该 分 布 上 计算 以 便 解 次 其 他 任务 。 例 如 ， 如 末 通 过 密度 
佑 计 得 到 了 概率 分 布 p( x )， 我 们 可 以 用 该 分 布 解 决 缺 失 值 填补 任 
Fo WAX; PEER, BERERE EE x -; 己 知 ， 那 么 我 们 
可 以 得 到 条 件 概率 分 布 D(Z; | ri) 。 实 际 情况 中 ， 密 度 估计 并 
不 能 够 解决 所 有 这 类 问题 ， 因 为 在 很 多 情况 下 p(x ) 和 是 难以 计算 的 。 


当然 ， 还 有 很 多 其 他 同类 型 或 其 他 类 型 的 任务 。 这 里 我 们 列举 的 任务 类 


型 只 是 用 来 介绍 机 右 学 习 可 以 做 哪些 任务 ， 并 非 严 格 地 定义 机 右 学 习 任 
务 分 类 。 


5.1.2 ”性 能 度量 P 


为 了 评估 机 占 学 习 算 法 的 能 力 ， 我 们 必须 设计 其 性 能 的 定量 度量 。 退 和 
性 能 度量 P 是 特定 于 系统 执行 的 任务 T 而 言 的 。 


对 于 诸如 分 类 、 和 缺失 输入 分 关 和 转录 任务 ， 我 们 通 第 上 度量 模型 的 准确 率 
(accuracy) 。 准 硝 率 是 指 该 模型 输出 正确 结果 的 样本 比率。 我 们 也 可 
以 通过 错误 率 Cerrorrate) 得 到 相同 的 信息 。 错 误 率 是 指 该 模型 输出 错 
误 结 果 的 样本 比率 。 我 们 通 铝 把 错误 率 称 为 0-1 损 失 的 期 望 。 在 一 个 特 
定 的 样本 上 ， 如 果 结 果 是 对 的 ， 那 么 0-1 损 失 是 0; 人 否则 是 1。 但 是 对 于 


密度 佑 计 这 类 任务 而 言 ， 度 量 准确 率 ， 钳 误 率 或 者 其 他 闫 型 的 0-1 损 失 
是 没有 意义 的 。 有 反之， 我 们 必须 使 用 不 同 的 性 能 上 度量， 使 模型 对 每 个 样 
本 部 软 出 一 个 连续 数值 的 得 分 。 最 征用 的 方法 古 输 出 模型 在 一 些 样 本 上 
概率 对 数 的 平均 值 。 


通 贡 ， 我 们 会 更 加 关注 机 硕 学 习 算 法 在 未 观测 数据 上 的 性 能 如 何 ， 因 为 
这 将 决定 其 在 实际 应 用 中 的 性 能 。 因 此 ， 我 们 使 用 测试 集 (test set) 数 
据 来 评估 系统 性 能 ， 将 其 与 训练 机 占 学 习 系 统 的 训练 集 数据 分 开 。 


性 能 度量 的 选择 或 许 看 上 去 简单 且 省 观 ， 但 是 选择 一 个 与 系统 理想 表现 
对 应 的 性 能 度量 通 第 十 很 难 的 。 


在 菏 些 悄 况 下 ， 这 是 因为 很 难 确定 应 该 度量 什么 。 例 如 ， 在 执行 转录 任 
务 时 ， 我 们 是 应 该 度 量 系统 转录 整个 序列 的 准确 紊 ， 还 是 应 该 用 一 个 更 
细 粒 度 的 指标 ， 对 序列 中 正确 的 部 分 元 系 以 正面 评价 ?在 执行 回归 任务 
F, RA My Ee HA Ti I eR RS, Bre BU AU aA 
是 犯 很 大 错误 的 系统 ? 这些 设计 的 选择 取决 于 应 用 。 


还 有 一 些 情 况 ， 我 们 知道 应 访 度 量 哪些 数值 ， 但 是 上 度 量 它 们 不 太 现 实 。 
这 种 情况 经 党 出 现在 密度 估计 中 。 很 多 最 好 的 概率 模型 只 能 隐 式 地 表示 
概 深 分 布 。 在 许多 这 类 模型 中 ， 计 算 空间 中 特定 点 的 概 认 是 不 可 行 的 。 
在 这 些 情 况 下 ， 我 们 必须 设计 一 个 仍然 对 应 于 设计 对 象 的 蔡 代 标准 ， 或 
者 设计 一 个 理想 标准 的 展 好 近似 。 


5.1.3 ASE 


Rae IKE PN AA Zee, Dla BE KET RAT i 
(unsupervised) 算法 和 监督 (supervised) 算法 。 


ASA EB aD EY LAS HY DA ERNE FE PASE (dataset) 上 获取 
Ze. BE ETRE AAMAS, OAS. LI AE RAN. AIK 
们 也 将 样本 称 为 数据 点 (data point) 。 


Iris CSQ ÆJ) 数据 集 (Fisher, 1936) 是 统计 学 家 和 机 器 学 习 研 究 者 
使 用 了 很 久 的 数据 集 。 它 是 150 个 总 尾 化 开 植物 不 同 部 分 测量 结果 的 集 
合 。 每 个 单独 的 植物 对 应 一 个 样本 。 每 个 样本 的 特征 是 该 植物 不 同 部 分 


的 测量 结果 : IRE FRAR, ARKEEN EE. TK PSR 
也 记录 了 每 个 植物 属于 什么 品种 ， 其 中 共有 3 个 不 同 的 品种 。 


无 监督 学 习 算 法 (unsupervised learning algorithm) 训练 含 有 很 多 特征 
的 数据 集 ， 然 后 学 习 出 这 个 数据 集 上 有 用 的 结构 性 质 。 在 深度 学 习 中 ， 
我 们 通 钊 要 学 习 生 成 数据 集 的 整个 概率 分 布 ， 显 式 地 ， 比 如 密度 佑 计 ， 
或 是 隐 陈 地 ， 比 如 合成 或 去 噪 。 还 有 一 些 其 他 类 型 的 无 监督 学 习 任 务 ， 
例如 聚 茯 ， 将 数据 集 分 成 相似 样本 的 集合 。 


监督 学 习 算 法 (supervised learning algorithm) 训练 含有 很 多 特征 的 数 
据 集 ， 不 过 数据 集中 的 样本 都 有 一 个 标签”(label) 或 目标 target) 。 

例如 ，Iris 数 据 集注 明了 每 个 访 尾 伦 刘 样本 属于 什么 品种 。 监 督学 习 算 

法 通过 研究 Iris 数 据 集 ， 学 习 如 何 根 据 测 量 结果 将 样本 划分 为 3 个 不 同 吕 
种 。 


大 致 说 来 ， 无 监督 学 习 小 及 观察 随机 回 量 x 的 好 几 个 样本 ， 试 图 显 式 或 
隐 式 地 学 习 出 概率 分 布 p (x ， ) ， 或 者 是 该 分 布 一 些 有 意思 的 性 质 ; 而 
监督 学 习 包 含 观 察 随机 同 量 x 及 其 相关 联 的 值 或 同 量 y ， 然 后 从 x 预测 y 
， 通 第 是 佑 计 p〈y | x ) 。 术 语 监 督学 习 (supervised learning) W AIX 
样 一 个 和 视角， 教员 或 者 老师 提供 目标 y 给 机 右 学 习 系 统 ， 指 叶 其 应 该 做 

什么 。 在 无 监督 学 习 中 ， 没 有 教员 或 者 老师 ， 算 法 必须 学 会 在 没有 指导 
的 情况 下 理解 数据 。 


无 监督 学 习 和 监督 学 习 不 是 严格 定义 的 术语 。 它 们 之 间 界线 通常 是 模糊 
的 。 很 多 机 器 学 习 技术 可 以 用 于 这 两 个 任务 。 例 如 ， 概 率 的 链 式 法 则 表 
六 对 于 随机 向 量 x C R. KASAT NER 


ax) = | | p EMAIT E) (5.1) 
i=1 


该 分 解 意味 着 我 们 可 以 将 其 拆 分 成 n 个 监督 学 习 问 题 ， 来 解决 表面 上 的 
无 监督 学 习 p( x )。 男 外 ， 我 们 求解 监督 学 习 问 题 p(y | x ) 时 ， 也 可 以 使 
用 传统 的 无 监督 学 习 策 略 学 习 联 合 分 布 p(x ,y)， 然 后 推断 


at p(x,y) 
y’ J de 


尽管 无 监督 学 习 和 监督 学 习 并 非 完全 没有 交集 的 正式 概念 ， 它 们 确实 有 
助 于 粗略 分 类 我 们 研究 机 器 学 习 算法 时 遇 到 的 问题 。 传 统 上 ， 人 们 将 回 
归 、 分 类 或 者 结构 化 输出 问题 称 为 监督 学 习 ， 将 支持 其 他 任务 的 密度 估 
计 称 为 无 监督 学 习 。 


学 习 范 式 的 其 他 变种 也 是 有 可 能 的 。 例 如 ， 半 监督 学 习 中 ， 一 些 样本 有 
监督 目标 ， 但 其 他 样本 没有 。 在 多 实例 学 习 中 ， 样 本 的 整个 集合 锐 标 记 
为 含有 或 者 不 含有 该 类 有 的 样本 ， 但 是 集合 中 蛙 独 的 样本 是 没有 标记 的 。 


一 一 么 


参考 Kotzias etal. (2015) 了 解 最 近 深 度 模 型 进行 多 实例 学 习 的 示例 。 


有 些 机 霹 学 习 算 法 并 不 是 训练 于 一 个 固定 的 数据 集 上 。 人 例如， 强化 学 习 
(reinforcement learning) 算法 会 和 环境 进行 交互 ， 所 以 学 习 系 统 和 和 它 的 
训练 过 程 会 有 反馈 回路 。 这 类 算法 超出 了 本 书 的 范畴 。 请 参考 Sutton 
and Barto (1998) 或 Bertsekas and Tsitsiklis (1996) 了 解 强化 学 习 相 天 
知识 ，Mnih etal. (2013) 介绍 了 强化 学 习 方 网 的 深度 学 习 方 法 。 


大 部 分 机 器 学 习 算法 简单 地 训练 于 一 个 数据 集 上 。 数 据 集 可 以 用 很 多 不 
同方 式 来 表示 。 在 所 有 的 情况 下 ， 数 据 集 都 是 样本 的 集合 ， 而 样本 是 特 
征 的 集合 。 


表示 数据 集 的 帝 用 方法 是 设计 窍 阵 (design matrix) 。 设 计算 阵 的 每 一 
行 包含 一 个 不 同 的 样本 。 每 一 列 对 应 不 同 的 特征 。 例 如 ，Iris 数 据 集 包 
含 150 个 样本 ， 每 个 样本 有 4 个 特征 。 这 意味 着 我 们 可 以 将 该 数据 集 表示 
JNE K = R150x4 ， 其 中 X ;1 表示 第 i 个 植物 的 要 卢 长 度 ， 
Xi, 表示 此 i 个 植物 的 导 厂 痪 度 等 。 我 们 在 本 书 中 插 述 的 大 部 分 学 习 算 法 
都 是 讲述 它们 是 如 何 运行 在 设计 窍 阵 数据 集 上 的 。 


当然 ， 每 一 个 样本 都 能 表示 成 同 量 ， 并 有 旦 这 些 向 量 的 维度 相同 ， 才 能 将 
一 个 数据 集 表 示 成 设计 符 阵 。 这 一 点 并 非 永远 可 能 。 例 如 ， 你 有 不 同 帘 
度 和 高 度 的 照片 的 集合 ， 那 么 不 同 的 照片 将 会 包含 不 同 数量 的 像素 。 因 
此 不 是 所 有 的 照片 都 可 以 表示 成 相同 长 度 的 同 量 。 第 9.7 节 和 第 10 章 将 
会 介绍 如 何 处 理 这 些 不 同类 型 的 异 构 数 据 。 在 上 述 这 类 情况 下 ， 我 们 不 
会 将 数据 集 表示 成 m 行 的 窍 阵 ， 而 是 表示 成 m 个 元 素 的 结合 : {x 41) ,x (ay 
a, x m) } 。 这 种 表示 方式 意味 着 样本 辐 量 x i) 和 x vj ) 可 以 有 不 同 的 大 


在 监督 学 习 中 ， 样 本 包含 一 个 标签 或 目标 和 一 组 特征 。 例 如 ， 我 们 希望 
使 用 学 习 算 法 从 照片 中 识别 对 象 。 我 们 需要 明确 哪些 对 象 会 出 现在 每 张 
照片 中 。 我 们 或 许 会 用 数字 编码 表示 ， 如 0 表示 人 、1 表 示 车 、2 表 示 猫 
等 。 通 常 在 处 理 包含 观 测 特征 的 设计 矩阵 X 的 数据 集 时 ， 我 们 也 会 提供 
一 个 标签 向 量 y ， 其 中 y; 表示 样本 的 标签 。 


当然 ， 有 时 标签 可 能 不 止 一 个 数 。 例 如 ， 如 果 我 们 想 要 训练 语 首 模 型 转 
录 整 个 可 了 于， 那么 每 个 句子 样本 的 标签 是 一 个 单词 序列 。 


正如 监督 学习 和 无 监督 学 习 没有 正式 的 定义 ， 数 据 集 或 者 经 验 也 没有 严 
格 的 区 分 。 这 里 介绍 的 结构 闻 址 了 大 多 数 情 况 ， 但 始终 有 可 能 为 新 的 应 
用 设计 出 新 的 结构 。 


5.1.4 示例: 线性 回归 


我 们 将 机 器 学 习 算 法 定义 为 : 通过 经 验 以 提高 计算 机 程序 在 某 些 任务 上 
性 能 的 算法 。 这 个 定义 有 点 抽象 。 为 了 使 这 个 定义 更 具体 点 ， 我 们 展示 
一 个 简单 的 机 峰 学 习 示 例 : 线性 回归 ”Qlinear regression) 。 当 我 们 介绍 
更 多 有 助 于 理解 机 喜 学 习 特 性 的 概念 时 ， 会 反复 回顾 这 个 示例 。 


顾名思义 ， 线 性 回归 解决 回归 问题 。 换 言 之 ， 我 们 的 目标 是 建立 一 个 系 
统 ， 将 向 量 p C 眼见 作为 输入 ， 预 测 标量 /GE IR 作为 输出 。 线 性 
回归 的 输出 是 其 输入 的 线性 函数 。 令 W 表示 模型 预测 y 应 该 取 的 值 。 我 
们 定义 输出 为 


其 中 人 E IR” 是 参数 (parameter) PÆ. 


参数 是 控制 系统 行为 的 值 。 在 这 种 情况 下 ，w ; 是 系数 ， 会 和 特征 x ; 相 
乘 之 后 全 部 相 加 起 来 。 我 们 可 以 将 w 看 作 一 组 决定 每 个 特征 如 何 影响 预 
测 的 权重 Cweight) 。 如 果 特 征 x ; 对 应 的 权重 w ; 是 正 的 ， 那 么 特征 的 
值 增加 ， 我 们 的 预测 值 W 也 会 增加 。 如 果 特 征 x ; 对 应 的 权重 w ; 是 负 
的 ， 那 么 特征 的 值 增加 ， 我 们 的 预测 值 W 会 减少 。 如 果 特 征 权重 的 大 小 
很 大 ， 那 么 它 对 预测 有 很 大 的 影响 ， 如 果 特 征 权 重 的 大 小 是 去， 那么 它 


Mf NCA 2 o 


因此 ， 我 们 可 以 定义 任务 T; HG 二 w e 从 z 预测 y。 接 下 
来 我 们 需要 定义 性 能 度量 一 _P。 

假设 我 们 有 m 个 输入 样本 组 成 的 设计 和 矩阵， 不 用 它 来 训练 模型 ， 而 是 评 
估 模 型 性 能 如 何 。 我 们 也 有 每 个 样本 对 应 的 正确 值 y 组 成 的 回归 目标 向 
量 。 因 为 这 个 数据 集 只 是 用 来 评估 性 能 ， 我 们 称 之 为 测试 集 (test 
set) o FRM AIEEE Mire X “sD? ”， 回 归 目 标 向 量 记 作 y 


(test) , 


度量 模型 性 能 的 一 种 方法 是 计算 模型 在 测试 集 上 的 均 方 误差 (mean 
squared error) . WR (test) 表示 模型 在 测试 集 上 的 预测 值 ， 那 么 均 方 
误差 表示 为 


l | Mp 
MSEtest = — X (O° — y0)? 5.4 
test 一 六 dd y ); (5.4) 


AWE, “ges — yltest) ”时 ， 我 们 会 发 现 误差 降 为 0。 我 们 也 可 以 
看 到 


^ (test)  „,(test) 


1 
MSE， = — 
TIL 











(5.5) 

所 以 当 预 测 值 和 目标 值 之 间 的 欧 几 里 得 距离 增加 时 ， 误 委 也 会 增加 。 

为 了 构建 一 个 机 器 学 习 算 法 ， 我 们 需要 设计 一 个 算法 ， 通 过 观察 训练 集 
(Xain) y(train)) 获得 经 验 ， 减 少 MSE ,es 以 改进 权重 w 。 一 种 直观 
方式 (我 们 将 在 后 续 的 第 5.5.1 节 说 明 其 合法 性 ) 是 最 小 化 训练 集 上 的 均 
IRZ, BUMSE pain o 


最 小 化 MSE ，i ， 我 们 可 以 简单 地 求解 其 导数 为 0 的 情况 : 


V Baga =D (5.6) 


























mie + grey a y (train) — i (5.7) 
m 2 
1 ; : 2 
— Me X (train) yy o gy READ) =i (5.8) 
mM 2 
= Ej = 
= We (x2) E y ain) ) (x8) w = pain) ) "EY j (5.9) 
=" Wu fant ae esta” i = jae! ee geen eA i gtd) — 6 (5.10) 
= o y (train) T y (train) zy e eT a — bi (5.11) 
A n É daak? eel ii gn l y iay (5.12) 
ee ep 人 7 yb I 
WSL 05.12) 给 出 解 的 系统 方程 被 称 为 正规 方程 (normal 


equation) 。 计 算 陈 〈5.12) 构成 了 一 个 简单 的 机 器 学 习 算 法 。 疼 5.1 展 
示 了 线性 回归 算法 的 使 用 示例 。 
线性 回归 示例 Rs uw 的 最 优 解 
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图 5.1 一 个 线性 回归 问题 ， 其 中 训练 集 包括 10 个 数据 点 ， 每 个 数据 点 包含 一 个 特征 。 因 为 只 有 
一 个 特征 ， 权 重 向 量 w 也 只 有 一 个 要 学 习 的 参数 w 1 。( 左 ) 我 们 可 以 观察 到 线性 回归 学 习 w 1 
， 从 而 使 得 直线 y=w 1 x 能 够 尽量 接近 穿 过 所 有 的 训练 点 。( 右 ) 标 注 的 点 表示 由 正规 方程 学 习 
到 的 w 1 的 值 ， 我 们 发 现 它 可 以 最 小 化 训练 集 上 的 均 方 误差 


值得 注意 的 是 ， 术 语 线 性 回归 dinear regression) 通常 用 来 指 稍微 复杂 
一 些 ， 附 加 和 额外 参数 ( 截 距 项 bp， 的 模型 。 在 这 个 模型 中 ， 


0=w z+b (5.13) 


HE MA a FN PI EY RT E PS Be ME PRC, m MAREE FE RT E 
ASI PI BL UED FR BUG R A aS a i APU RAE HER 
re AAR, KERFERRE o BR SINUS BE BL 


b, ARTA EAM SA, (Ae x 需要 增加 一 项 永远 为 1 的 元 
系 。 对 应 于 额外 1 的 权重 起 到 了 偶 置 参数 的 作用 。 当 我 们 在 本 书 中 提 到 
仿 射 函数 时 ， 会 经 党 使 用 术语 “线性 ”。 


规 距 项 b 通 钊 被 称 为 仿 射 变换 的 俩 置 ”(bias)〉 参数 。 这 个 术语 的 命名 源 
目 访 变换 的 输出 在 没有 任何 输入 时 会 仿 移 Db。 它 和 统计 仿 大 中 指 代 统 计 
估计 算法 的 东 个 量 的 期 性 佑 计 偶 离 具 实 什 的 意思 是 不 一 样 的 。 


线性 回归 当然 是 一 个 极其 简单 且 有 局 限 的 学 习 复 法 ， 但 是 它 握 供 了 一 个 
说 明 学 习 算法 如 何 工作 的 例 于 。 在 接 下 来 的 章节 中 ， 我 们 将 会 介绍 一 坚 
设计 学 习 算 法 的 基本 原则 ， 并 说 明 如 何 使 用 这 些 原则 来 构建 更 复杂 的 学 
习 算法 。 


52 容量、 过 拟 合 和 从 拟 合 


机 恬 学 习 的 主要 挑战 是 我 们 的 算法 必须 能 够 在 先 表 未 观测 到 的 狐 输 入 上 
表现 恨 好 ， 而 不 只 是 在 训练 集 上 表现 展 好 。 在 先前 未 观测 到 的 输入 上 表 
现 民 好 的 能 力 补 称 为 泛 化 〈generaliza-tion) 。 


通常 情况 下 ， 训 练 机 器 学 习 模 型 时 ， 我 们 可 以 使 用 茶 个 训练 集 ， 在 训练 
集 上 计算 一 些 被 称 为 训练 误差 (training error) 的 度量 误差 ， 目 标 是 降 
低 训 练 误 莽 。 到 目前 为 止 ， 我 们 讨论 的 是 一 个 简单 的 优化 问题 。 机 和 需 学 
习 和 优化 不 同 的 地 方 在 于 ， 我 们 也 和 希望 泛 化 误 甜 (generalization error) 
CERRADA (test error) ) (RR. MIRAE MASA 
误 委 期 望 。 这 里 ， 期 望 的 计算 基于 不 同 的 可 能 输入 ， 这 些 输入 采 目 系统 
在 现实 中 过 到 的 分 布 。 


通 党 ， 我 们 度量 模型 在 训练 集中 分 出 来 的 测试 集 (test set) 样本 上 的 性 
He» ORDEAL ae I RAZ IRE o 
FEAT A Be VE IIS ANB, TR te) VIR ER UII RR A 
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m (train) 
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(5.14) 
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但 是 我 们 真正 关注 的 是 测试 误差 一 | X (et) ay — y(test) 
Mm SU ) 9 








SENT A REMEI, Qe] AP eZ RA ME EE? Seth St 
理论 (statistical learning theory) 提供 了 一 些 答 采 。 如 果 训 练 集 和 测试 
集 的 数据 是 任意 收集 的 ， 那 么 我 们 能 够 做 的 确实 很 有 限 。 如 果 可 以 对 训 
练 集 和 测试 集 数 据 的 收集 方式 有 些 假设 ， 那 么 我 们 能 够 对 算法 做 些 改 
Die 


IERA AGE AE a SE A BE OE RE (data 
generating process) WMS AM. i, EIS RIR RRA 
独立 同 分 布 假设 ” (i.i.d. assumption) 的 假设 。 访 假设 是 说 ， 每 个 数据 
集中 的 样本 都 是 彼此 相互 独立 的 Cindependent) ， 并 且 训 练 集 和 测试 
集 是 同 分 布 的 (identically distributed) ， 采 样 自 相 同 的 分 布 。 这 个 假设 
使 我 们 能 够 在 单个 样本 的 和 概率 分 布 摘 述 数据 生成 过 程 。 然 后 相同 的 分 布 
可 以 用 来 生成 每 一 个 训练 样本 和 每 一 个 测试 样本 。 我 们 将 这 个 共 且 的 游 
在 分 布 称 为 数据 生成 分 布 (data generating distribution) ， 记 作 Pp Jata o 

这 个 概率 框 架 和 独立 同 分 布 假设 允许 我 们 从 数学 上 研究 训练 误 又 和 测试 
TREE ZAI IN KK o 


ANT BE SS BU VIR A RE ZAIN BR AE, ENRI 
Fe HY FS A Re EO. ETA Ep tip ( 
xX, y), APER REE RUINS Ae. MTSE ALDEN w ， 训 
ARRA A 8 ef AE RA ER PRE, EAA PS 
计算 都 使 用 了 相同 的 数据 集 生 成 过 程 。 这 两 种 情况 的 唯一 区 别 是 数据 集 
的 名 字 不 同 。 

当然 ， 在 使 用 机 器 学 习 算 法 时 ， 我 们 不 会 提前 固定 参数 ， 然 后 采样 得 到 
两 个 数据 集 。 我 们 采样 得 到 训练 集 ， 然 后 挑选 参数 去 降低 训练 集 误 和 天， 
然后 末 样 得 到 测试 集 。 在 这 个 过 程 中 ， 测 试 误差 期 望 会 大 于 或 等 于 训练 
误 天 期 望 。 以 下 是 决定 机 器 学 习 算 法 效果 是 否 好 的 因素 : 


(1) 降低 训练 误差。 
(2) 缩小 训练 误差 和 测试 误差 的 差距 。 
这 两 个 因素 对 应 机 器 学 习 的 两 个 主要 挑战 ， 欠 拟 合 Cunderfitting) 和 过 


Ua Coverfitting) 。 从 拟 合 是 指 人 异型 不 能 在 训练 集 上 获得 足够 低 的 误 
Ao MEWE EMIA RAMMAR ERK 


通过 调整 模型 的 容量 Capacity) » RATE APERIRE ze FB On TA] TEM 
合 或 者 愉 拟 合 。 通 俗 来 讲 ， 模 型 的 容量 是 指 其 拟 合 各 种 函数 的 能 力 。 容 
量 低 的 模型 可 能 很 难 拟 合 训 练 集 。 容 量 电 的 模型 可 能 会 过 拟 合 ， 因 为 记 
住 了 不 适用 于 训 弃 嘛 的 训练 集 性 质 。 


一 种 控制 训练 算法 容量 的 方法 是 选择 假设 空间 (hypothesis space) , BH 
学 习 算 法 可 以 选择 为 解决 方 采 的 函数 集 。 例 如 ， 线 性 回归 函数 将 天 于 其 
输入 的 所 有 线性 函数 作为 假设 空间 。 厂 义 线性 回归 的 假设 空间 包括 多 项 
式 函 数 ， 而 非 仅 有 线性 函数 。 这 样 做 就 增加 了 模型 的 容量 。 


一 次 多 项 却 提 供 了 我 们 已 经 束 悉 的 线性 回归 模型 ， 其 预测 如 下 


ĝ =b+ wr (Bd) 


通过 引入 x“ 作为 线性 回归 模型 的 另 一 个 特征 ， 我 们 能 够 学 习 关 于 X 的 二 
UR PB BURA 


A 2 > 
VY = b + wiz + wr’ (5.16) 
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为 额外 特征 ， 例 如 下 面 的 9 次 多 项 陈 : 


9 
y= 0+ D wir’ (LT) 
i=1 


HPA 4 I RAA ei BS ATT ES W R EA T ERVI BR 
数量 时 ， 算 法 效果 退 弟 会 最 佳 。 容 量 不 中 的 模型 不 能 解决 复 林 任务 。 容 
量 珊 的 模型 能 够 解决 复杂 的 任务 ， 但 是 当 其 容量 局 于 任务 所 需 时 ， 有 可 
能 会 过 拟 合 。 


图 5.2 展 示 了 这 个 原理 的 使 用 情况 。 我 们 比较 了 线性 、 二 次 和 9 次 预测 器 
拟 合 真实 二 次 函数 的 效 束 。 线 性 函数 无 法 刻 男 真实 函数 的 曲率 ， 所 以 到 
拟 合 。9 次 函数 能 够 表示 正确 的 函数 ， 但 是 因为 训练 参数 比 训 练 样本 还 
多 ， 所 以 它 也 能 够 表示 无 限 多 个 刚好 罕 越 训练 样本 后 的 很 多 其 他 函数 。 
我 们 不 太 可 能 从 这 很 多 不 同 的 解 中 选 出 一 个 泛 化 民 好 的 。 在 这 个 问题 

中 ， 二 次 模型 非常 人 符合 任务 的 真实 结构 ， 因 此 它 可 以 很 好 地 泛 化 到 新 数 
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图 5.2 ”我 们 用 3 个 模型 拟 合 了 这 个 训练 集 的 样本 。 训 练 数 据 是 通过 随机 抽取 x 然后 用 二 次 函数 确 
定性 地 生成 y 来 合成 的 。 左 ) 用 一 个 线性 函数 拟 合 数 据 会 导致 欠 拟 合 一 一 它 无 法 捕 近 数据 中 的 
曲率 信息 。〔 中 〉 用 二 次 函数 拟 合 数据 在 未 观察 到 的 把 上 没 化 得 很 好 ， 这 并 不 会 导致 明显 的 处 
拟 合 或 者 过 拟 合 。《 右 ) 一 个 9 阶 的 多 项 却 拟 合 数据 会 导致 过 拟 合 。 在 这 里 我 们 使 用 Moore- 
Penrose 伪 逆 来 解 这 个 欠 定 的 正规 方程 。 得 出 的 解 能 够 精确 地 穿 过 所 有 的 训练 号 ， 但 可 惜 我 们 无 
法 提取 有 效 的 结构 信息 。 在 两 个 数据 反之 间 它 有 一 个 真实 的 函数 所 不 包含 的 深谷 。 在 数据 的 左 
侧 ， 它 也 会 急剧 增长 ， 而 在 这 一 区 域 真实 的 函数 却 是 下 降 的 


到 目前 为 止 ， 我 们 探讨 了 通过 改变 输入 特征 的 数目 和 加 入 这 些 特征 对 应 
的 参数 ， 改 变 模型 的 容量 。 事 实 上 ， 还 有 很 多 方法 可 以 改变 模型 的 容 
量 。 容 量 不 仅 取决 于 模型 的 选择 。 模 型 规定 了 调整 参数 降低 训练 目标 
时 ， 学 习 算 法 可 以 从 哪些 函数 族 中 选择 函数 。 这 极 称 为 模型 的 表示 容量 
(representational capacity) 。 在 很 多 情况 下 ， 从 这 些 函 数 中 挑选 出 了 最 优 
国 数 是 非 第 困难 的 优化 问题 。 实 际 中 ， 学 习 算 法 不 会 真 的 找到 最 优 函 
数 ， 而 仅 是 找到 一 个 可 以 大 大 降低 训练 误 莽 的 函数 。 和 额外 的 限制 因 率 ， 
比如 优化 算法 的 不 完美 ， 意 味 独 学 习 算 法 的 有 效 容 量 (effective 
capacity) 可 能 小 于 模型 族 的 表示 容量 。 





提 蜗 机 妖 学 习 模 型 泛 化 的 现代 思想 可 以 退 溯 到 早 在 托 勒 密 时 期 的 哲学 家 
的 思想 。 许 多 早期 的 学 者 提出 一 个 条 约 原则 ， 现 在 广泛 被 称 为 奥 卡 姆 刹 
J]J (Occam's razor) (c. 1287-1387) 。 该 原则 指出 ， 在 同样 能 够 解释 
已 知 观测 现象 的 假设 中 ， 我 们 应 该 挑选 “最 简单 ”的 那 一 个 。 这 个 想法 是 
在 20 世 纪 ， 由 统计 和 学习 理论 创始 人 形式 化 并 精确 化 的 〈《Vapnik and 
Chervonenkis, 1971; Vapnik, 1982; Blumer et al. , 1989; Vapnik, 

1995) 。 


统计 学 习 理 论据 供 了 量化 模型 容量 的 不 同方 法 。 在 这 些 方法 中 ， 最 有 名 
th] 42 Vapnik-Chervonenkis#/= (Vapnik-Chervonenkis dimension, 

VO) ， 人 简称 VC 维 。VC 维 度量 二 元 分 类 融 的 容量 。VC 维 定义 为 该 分 类 

As HES Oy RAN ISR AS ALO. Em AA] x 点 的 训练 集 ， 

ay Ras A LEA izm th AAA x 点 ，VC 维 航 定 义 为 m 的 最 大 可 能 
值 。 


量化 模型 的 容量 使 得 统计 学 习 理 论 可 以 进行 量化 了 预测。 统计 和 学习 理论 中 
By EA Za VO IN SIR TRE RE IB) A LE FR a ts 
增长 而 增长 ， 但 随 看 训练 样本 增多 而 下 降 CVapnik and Chervonenkis, 
1971; Vapnik, 1982; Blumer et al. , 1989; Vapnik, 1995) 。 这 些 边 
界 为 机 器 学 习 算 法 可 以 有 效 解决 问题 提供 了 理论 验证 ， 但 是 它们 很 少 应 
用 于 实际 中 的 深度 学 习 算法 。 一 部 分 原因 是 边界 太 松 ， 故 一 部 分 原因 是 
很 难 确定 深 上 度 学 习 算 法 的 容量 。 由 于 有 效 容量 党 限于 优化 算法 的 能 
确定 深度 学 习 模 型 容量 的 问题 特别 困难 。 而 且 对 于 深度 学 习 中 的 一 般 非 
中 优化 问题 ， 我 们 只 有 很 少 的 理论 分 析 。 


我 们 必须 记 住 虽然 更 简单 的 函数 更 可 能 泛 化 《训练 误 甜 和 测试 误 兰 的 关 
距 小 ) ， 但 我 们 仍然 需要 选择 一 个 充分 复杂 的 假设 以 达到 低 的 训练 误 
差 。 通 常 ， 当 模型 容量 上 升 时 ， 训 练 误差 会 下 降 ， 直 到 其 渐 近 最 小 可 能 
误差 (假设 误差 度量 有 最 小 值 ) 。 通 常 ， 泛 化 误差 是 一 个 关于 模型 容量 
的 U 形 曲线 国 数 ， 如 图 5.3 所 示 。 





久 拟 全 区 域 过 拟 合 区 域 





图 5.3 ”容量 和 误差 之 间 的 典型 关系 。 训 练 误 震 和 测试 误 关 表现 得 非 稼 不 同 。 在 图 的 左 疹 ， 训 练 
误差 和 泛 化 误差 都 非常 高 ， 这 是 欠 拟 合 机 制 (underfitting regime) 。 当 我 们 增加 容量 时 ， 训 练 
误 甜 减 小 ， 但 是 训练 误 甜 和 泛 化 误 关 之 间 的 间距 却 不 断 扩 大 。 最 终 ， 这 个 间距 的 大 小 超过 了 训 


练 误差 的 下 降 ， 我 们 进入 到 了 过 拟 合 机 制 Coverfitting regime) ， 其 中 容量 过 大 ， 超 过 了 最 优 


容量 (optimal capacity ) 


为 考虑 容量 任意 高 的 极端 情况 ， 我 们 介绍 非 参 数 (non-parametric) $X 
型 的 概念 。 至 此 ， 我 们 只 探讨 过 参数 模型 ， 例 如 线性 回归 。 人 参数 模 型 学 
习 的 函数 在 观测 到 新 数据 前 ， 参 数 癌 量 的 分 量 个 数 是 有 限 且 固定 时。 非 
参数 模型 没有 这 些 限制 。 


有 时 ， 非 参数 模型 仅 是 一 些 不 能 实际 实现 的 理论 抽象 《比如 搜索 所 有 可 
能 概率 分 布 的 算法 ) 。 然 而 ， 我 们 也 可 以 设计 一 些 实用 的 非 参数 模型 ， 
使 它们 的 复杂 上 度 和 训练 集 大 小 有 关 。 这 种 算法 的 一 个 示例 是 最 近邻 回归 
(nearest neighbor regression) 。 不 像 线性 回归 有 国定 长 度 的 癌 量 作为 权 
重 ， 最 近邻 回归 模型 存储 了 训练 集中 所 有 的 和 和 yy 。 当 需要 为 汕 试 点 x 
分 关 时 ， 重 琢 会 盘 询 训练 集中 离 该 点 最 近 的 点 ， 并 返回 相关 的 回归 月 
mo RBZ, Y=y, 其 中 i = arg min || Xi: 一 zll 。 访 算法 也 可 以 扩展 
ML “ 抑 数 以 外 的 距离 度量 ， 例 如 学 成 距离 度量 (Goldberger et al. , 
2005) 。 在 最 近 同 量 不 唯一 的 情况 下 ， 如 末 人 允许 算法 对 所 有 离 x 最 近 的 
X;，， 关 联 的 y ; 求 平均 ， 那 么 该 算法 会 在 任意 回归 数据 集 上 达到 最 小 可 
能 的 训练 误 大 《如 末 存 在 两 个 相同 的 输入 对 应 不 同 的 和 输出， 那么 训练 误 
差 可 能 会 大 于 零 ) 。 


最 后 ， 我 们 也 可 以 将 参数 学习 算法 藤 入 为 一 个 增加 参数 数目 的 拭 法 来 创 
建 非 参数 学 习 算法 。 例 如 ， 我 们 可 以 想象 这 样 一 个 算法 ， 外 层 循 环 调整 
多 项 式 的 次 数 ， 内 层 循 环 通过 线性 回归 学习 模型 。 


理想 模型 假设 我 们 能 够 预先 知道 生成 数据 的 真实 概率 分 布 。 然 而 这 样 的 
模型 仍然 会 在 很 多 问题 上 发 生 一 些 错 误 ， 因 为 分 布 中 仍然 会 有 一 些 品 
声 。 在 监督 学 习 中 ， 从 x 到 y 的 映射 可 能 内 在 是 随机 的 ， 或 者 y 可 能 是 其 
他 变量 (包括 x 在 内 ) 的 确定 性 函数 。 从 预先 知道 的 真实 分 布 p ( x ， 
y) 预测 而 出 现 的 误 磊 锐 称 为 贝 叶 斯 误 焉 (Bayes error) 。 


训练 误 到 和 泛 化 误 天 会 随 训练 集 的 大 小 友 生 变化 。 泛 化 误 友 的 期 户 从 不 
会 因 训 练 样本 数目 的 增加 而 增加 。 对 于 非 参 数 模型 而 言 ， 更 多 的 数据 会 
得 到 更 好 的 泛 化 能 力 ， 和 直到 达到 最 佳 可 能 的 沁 化 误 牵 。 任 何 模 型 容量 小 
于 最 优 容量 的 固定 参数 模型 会 渐 近 到 大 于 贝 叶 斯 误 友 的 误 基 值 ， 如 图 
5.4 所 示 。 值 得 注意 的 是 ， 共 有 最 优 容量 的 模型 仍然 有 可 能 在 训练 误差 
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多 的 训练 样本 来 缩小 过 距 。 


贝 叶 斯 误差 
训练 (二 次 ) 
测试 (二 次 ) 
测试 ( 最 优 容量 ) 


训练 ( 最 优 容 量 ) 


误差 ( 均 方 误差 ) 





0. 
10” 10! 10? 10° 10! 10° 
训练 样本 数目 


( 多 项 式 次 数 ) 


最 优 容量 





10° 10' 10° 10° 10! 10° 
训练 样本 数 日 





图 5.4 训练 集 大 小 对 训练 误 兰 、 测 试 误 兰 以 及 最 优 容量 的 影响 。 通 过 给 一 个 5 阶 多 项 式 湛 加 适 
当 大 小 的 噪声 ， 我 们 构造 了 一 个 合成 的 回归 问题 ， 生 成 单个 测试 集 ， 然 后 生成 一 些 不 同 矿 吉 的 
训练 集 。 为 了 插 述 95% 置 信 区 间 的 误 鞭 条， 对 于 每 一 个 尺寸 ， 我 们 生成 了 40 个 不 同 的 训练 集 。 
CE) 两 个 不 同 的 模型 上 训练 集 和 测试 集 的 MSE， 一 个 二 次 模型 ， 另 一 个 模型 的 阶 数 通过 最 小 
化 训 斌 误差 来 选择 。 两 个 模型 都 是 用 闭 云 解 来 拟 合 。 对 于 二 次 模型 来 次 ， 当 训练 集 增 加 时 ， 训 
练 误 过 也 随 之 增 大 。 这 十 由 于 越 大 的 数据 集 越 难 以 拟 合 。 同 时 ， 剖 试 误 兰 随 之 减 小 ， 因 为 天 于 
训练 数据 的 不 正确 的 假设 越 来 越 少 。 二 次 模型 的 容量 并 不 足以 解决 这 个 问题 ， 所 以 它 的 测试 误 
天 趋 近 于 一 个 较 遍 的 值 。 最 优 容量 氮 处 的 测试 误 状 趋 近 于 贝 叶 斯 误 壮 。 训 练 误 兰 可 以 低 于 贝 叶 
斯 误 普 ， 因 为 训练 算法 有 能 力 记 住 训练 集中 特定 的 样本 。 当 训练 集 趋 癌 于 无 穷 大 时 ， 任 何 固定 
容量 的 模型 〈 在 这 里 指 的 是 二 次 模型 ) USK Ze oh BD HE BU Re (下 〉 当 训练 集 大 
小 增 大 时 ， 最 优 容量 在 这 里 是 用 最 优 多 项 式 回 归 右 的 阶 数 衡量 的 ) 也 会 随 之 增 大 。 最 优 容 量 
在 达到 足够 捕 提 模型 复杂 度 之 后 束 不 再 增长 了 


5.2.1 没有 免费 午餐 定理 


学 习 理论 表明 机 器 学 习 算法 能 够 在 有 限 个 训练 集 样本 中 很 好 地 泛 化 。 这 
似乎 违背 一 些 基 本 的 逻辑 原则 。 归 纳 推 理 ， 或 是 从 一 组 有 限 的 样本 中 扒 
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集合 中 的 元 系 ， 我 们 必须 具有 集合 中 每 个 元 系 的 信息 。 


在 一 定 程度 上 ， 机 融和 学 习 仅 通 过 概率 法 则 了 束 可 以 避免 这 个 问题 ， 而 无 须 
使 用 纯 锡 辑 推 理 整个 确定 性 法 则 。 机 融和 学 习 保 证 找到 一 个 在 所 关注 的 大 
多 数 样 本 上 可 能 正确 的 规则 。 


可 异 ， 即 使 这 样 也 不 能 解决 整个 问题 。 机 右 学 习 的 没有 人 免费 午餐 定理 

(no free lunch theorem) 表明 (Wolpert, 1996) ， 在 所 有 可 能 的 数据 生 
成 分 布 上 平均 之 后 ， 每 一 个 分 类 算法 在 未 事先 观测 的 点 上 部 有 相同 的 错 
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好 。 我 们 能 够 设想 的 最 先进 的 算法 和 简单 地 将 所 有 点 归 为 同一 类 的 简单 
算法 有 首相 同 的 平均 性 能 《在 所 有 可 能 的 任务 上 ) 。 


芋 运 的 是 ， 这 些 结论 仅 在 我 们 考 碟 所 有 可 能 的 数据 生成 分 布 时 才 成 立 。 
在 真实 世界 应 用 中 ， 如 果 我 们 对 过 到 的 概率 分 布 进行 假 设 ， 那 么 可 以 设 
计 在 这 些 分 布 上 效 来 民 好 有 的 学 习 算 法 。 


这 意味 看 机 帮 学 习 人 研究 的 目标 个 是 找 一 个 通用 学 习 算 法 或 是 绝对 最 好 的 
学 习 算 法 ， 而 是 理解 什么 样 的 分 布 与 人 工 和 鲁能 获取 经 验 的 “真实 世 究 * 相 
关 ， 以 及 什么 样 的 学 习 算 法 在 我 们 天 注 的 数据 生成 分 布 上 效 末 最 好 。 


5.2.2 ”正则 化 


没有 免费 午餐 定理 暗示 我 们 作 须 在 特定 任务 上 设计 性 能 展 好 的 机 弄 学 习 
算法 。 我 们 建立 一 组 学 习 算 法 的 俩 好 来 达到 这 个 要 求 。 当 这 些 俩 好 和 我 
们 希望 算法 解决 的 学 习 问 题 相 吻 合 时 ， 性 能 会 更 好 。 


全 此 ， 我 们 有 共 体 讨论 修改 学 习 算 法 的 方法 ， 只 有 通过 增加 或 减少 学 习 算 
法 可 选 假设 空间 的 函数 来 增加 或 减少 模型 的 容量 。 所 列举 的 一 个 具体 示 
例 征 线性 回归 增加 或 减少 多 项 去 的 次 效 。 到 目前 为 止 讨 论 的 观 氮 都 是 过 
度 简 化 的 。 


算法 的 效 朱 不 仅 很 大 程度 上 受 影 啊 于 假设 空间 的 函数 数量 ， 也 取决 于 这 
些 国 数 的 基体 形式 。 我 们 已 经 讨论 的 学 习 算法 《线性 回归 ) 共有 包含 其 
输入 的 线性 函数 集 的 假设 空间 。 对 于 输入 和 输出 确实 接近 线性 相关 有 的 问 


六 ， 这 些 线性 函数 征 很 有 用 的 。 对 于 完全 非 线性 的 问题 它们 不 六 有 效 。 
例如 ， 我 们 用 线性 回归 ， 从 x 预测 sin(x)， 效 果 不 会 好 。 因 此 我 们 可 以 通 
过 两 种 方式 控制 和 拭 法 的 性 能 ， 一 是 允许 使 用 的 函数 种 类 ， 二 十 这 些 孙 数 
的 数量 。 


在 假设 空间 中 ， 相 比 于 条 一 个 学 习 算 法 ， 我 们 可 能 更 仿 好 为 一 个 学 习 算 
法 。 这 意味 看 两 个 函数 痢 是 人 符合 条 件 的 ， 但 是 我 们 更 偏好 其 中 一 个 。 只 
有 非 仿 好 函数 比 仿 好 函数 在 训练 数据 集 上 效果 明显 好 很 多 时 ， 我 们 才 会 
A E EAT RZ. 


例如 ， 可 以 加 入 权重 衰减 ” (weight decay) 来 修改 线性 回归 的 训练 标 
准 。 和 市 权重 辟 减 的 线性 回归 最 小 化 训练 集 上 的 均 方 误 奏 和 正则 项 的 和 
Tow) ， 其 偏好 于 平方 L“ 范 数 较 小 的 权重 。 具 体 如 下 


J(w) = MSEwain + Aw w (5.18) 


其 中 和 是 近 前 挑选 的 值 ， 控 制 我 们 俩 好 小 范 数 权重 的 程度 。 当 和 =0 时 ， 我 
们 没有 任何 俩 好 。 越 大 的 入 偶 好 范 数 越 小 的 权重 。 节 小 化 J〈《w ) 可 以 看 
作 拟 合 训 练 数据 和 俩 好 小 权重 范 数 之 间 的 权衡 。 这 会 使 得 解决 方案 的 笠 
率 较 小 ， 或 是 将 权重 放 在 较 少 的 特征 上 。 我 们 可 以 训练 具有 不 同和 全 的 
融 识 多 项 陈 回 归 模 型 ， 来 举例 说 明 如 何 通 过 权重 桶 减 控制 模型 屎 拟 合 或 
过 拟 合 的 趋势 ， 如 图 5.5 所 示 。 


RHA 适当 权重 衰减 过 拟 合 
(过 大 的 入 (中 等 的 入 ) (入 一 0) 
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图 5.5 ”我 们 使 用 高 阶 多 项 式 回 归 模 型 来 拟 合 图 5.2 中 的 训练 样本 。 真 实 函 数 是 二 次 的 ， 但 是 在 这 
里 只 使 用 9 阶 多 项 式 。 我 们 通过 改变 权重 娶 减 的 量 来 妈 免 局 阶 模型 的 过 拟 合 问题 。〈 左 ) SASF 
曙 大 时 ， 我 们 可 以 强迫 模型 学 习 到 一 个 没有 和 斜率 的 函数 。 由 于 它 只 能 表示 一 个 常数 函数 ， 所 以 
ATER. CH) 取 一 个 适当 的 和 人 时， 学 习 算法 能 够 用 一 个 正 第 的 形状 来 恢复 曲率 。 即 使 模 
型 能 够 用 更 复杂 的 形状 来 表示 国 数 ， 权 重 桔 减 也 或 励 用 一 个 市 有 更 小 参数 的 更 宙 单 的 模型 来 拉 




















We. CA) 当权 重 衰减 趋 近 于 0 (即使 用 Moore-Penrose 伪 逆 来 解 这 个 带 有 最 小 正则 化 的 从 定 
问题 ) 时 ， 这 个 9 阶 多 项 式 会 导致 严重 的 过 拟 合 ， 这 和 我 们 在 图 5.2 中 看 到 的 一 样 


更 一 般 地 ， 正 则 化 一 个 学 习 函 数 了 Cx; 6) 的 模型 ， 我 们 可 以 给 代价 函 
数 添加 被 称 为 正则 化 项 Cregularizer) WET). ZENE BIN PIS, 
正则 化 是 Q(w) 二 wlw 。 在 第 7 章 ， 我 们 将 看 到 很 多 其 他 可 能 的 正 
则 化 。 


表示 对 函数 的 俩 好 是 比 增 减 假设 空间 的 成 员 函 数 更 一 般 地 控制 使 型 容量 
的 方法 。 我 们 可 以 将 去 把 假设 空间 中 的 东 个 图 数 看 作对 不 赞成 这 个 函数 
的 无 限 俩 好 。 


在 权重 桶 减 的 示例 中 ， 通 过 在 最 小 化 的 目标 中 额外 增加 一 项 ， 我 们 明确 
地 表示 了 偏好 权 和 曹 较 小 的 线性 函数 。 有 很 多 其 他 方法 隐 式 或 显 式 地 表示 
对 不 同 解 的 俩 好 。 上 总而言之， 这 些 不 同 的 方法 都 极 称 为 正则 化 
(regularization) 。 正 则 化 是 指 修改 学 习 算 法 ， 使 其 降低 泛 化 误差 而 非 
训练 误 兰 。 正 则 化 是 机 需 学 习 领 域 的 中 心 问 题 之 一 ， 只 有 优化 能 够 与 其 
重要 性 相提并论 。 


没有 免费 午餐 定理 已 经 清楚 地 阐述 了 没有 最 优 的 学 习 算 法 ， 特 别 是 没有 
最 优 的 正则 化 形式 。 反 之 ， 我 们 必须 挑选 一 个 非常 适合 于 我 们 所 要 解决 
的 任务 的 正则 形式 。 深 度 学 习 中 普遍 的 (特别 是 本 书 中 的 ) 理念 是 大 量 
任务 (例如 所 有 人 能 做 的 智能 任务 ) 也 许 都 可 以 使 用 非常 通用 的 正则 化 
形式 来 有 效 解决 。 

5.3” 超 参数 和 验证 集 

大 多 数 机 器 学 习 算法 都 有 超 参 数 ， 可 以 设置 来 控制 算法 行为 。 超 参数 的 
值 不 是 通过 学 习 算 法 本 身 学 习 出 来 的 (尽管 我 们 可 以 设计 一 个 幅 套 的 学 
习 过 程 ， 一 个 学 习 算 法 为 另 一 个 学 习 算法 学 出 最 优 超 参数 ) 。 

在 图 5.2 所 示 的 多 项 式 回归 示例 中 ， 有 一 个 超 参数 ， 即 多 项 式 的 次 数 ， 
作为 容量 超 参 数 。 控 制 权重 衰减 程度 的 是 另 一 个 超 参数 。 


有 时 一 个 选项 被 设 为 学 习 算法 不 用 学 习 的 超 参数 ， 征 因为 它 太 难 优化 
了 。 更 多 的 情况 是 ， 访 选项 必须 是 超 参 数 ， 因 为 它 不 适合 在 训练 集 上 学 
习 。 这 适用 于 控制 模型 容量 的 所 有 超 参 数 。 如 末 在 训练 集 上 学习 超 参 


数 ， 这 些 超 参数 总 是 趋同 于 最 大 可 能 的 模型 容重， 导致 过 拟 合 〈 见 图 
5.3) 。 例 如 ， 相 比 低 次 多 项 式 和 正 的 权重 可 减 设 定 ， 更 高 次 的 多 项 却 
和 权重 衰减 参数 设 定 X=0 总 能 在 训练 集 上 更 好 地 拟 合 。 


为 了 解决 这 个 问题 ， 我 们 需要 一 个 训练 算法 观测 不 到 的 验证 集 
(validation set) FFAS. 


早先 我 们 讨论 过 和 训练 数据 相同 分 布 的 样本 组 成 的 测试 集 ， 它 可 以 用 来 
估计 学 习 过 程 完成 之 后 的 学 习 器 的 泛 化 误差 。 其 重点 在 于 测试 样本 不 能 
以 任何 形式 参与 到 模型 的 选择 中 ， 包 括 设 定 超 参 数 。 基 于 这 个 原因 ， 测 
试 集中 的 样本 不 能 用 于 验证 集 。 因 此 ， 我 们 总 是 从 训练 数据 中 构建 验证 
集 。 特 别 地 ， 我 们 将 训练 数据 分 成 两 个 不 相交 的 子 集 。 其 中 一 个 用 于 学 
习 人 参数。 另 一 个 作为 验证 集 ， 用 于 估计 训练 中 或 训练 后 的 泛 化 误 短 ， 更 
新 超 参数 。 用 于 学 习 参 数 的 数据 子 集 通 音 仍 被 称 为 训练 集 ， 尽 管 这 会 和 
整个 训练 过 程 用 到 的 更 大 的 数据 集 相 混 。 用 于 挑选 超 参 数 的 数据 子 集 被 
称 为 验证 集 ”。 通 党 ，80% 的 训练 数据 用 于 训练 ，20% 用 于 验证 。 由 于 
验证 集 是 用 来 “训练 ? 超 参 数 的 ， 尽 管 验 证 集 的 误差 通 第 会 比 训练 集 误 天 
小 ， 验 证 集会 低估 泛 化 误 短 。 所 有 超 参 数 优 化 完成 之 后 ， 池 化 误 甜 可 能 
会 通过 测试 集 来 估计 。 


在 实际 中 ， 当 相同 的 测试 集 已 在 很 多 年 中 重复 地 用 于 评估 不 同 算法 的 性 
能 ， 并 且 考 碟 学 术 界 在 访 测 弃 集 上 的 各 种 符 试 ， 我 们 最 后 可 能 也 会 对 训 
试 集 有 看 乐观 的 估计 。 基 准 会 因 之 变 得 陈旧 ， 而 不 能 反映 系统 的 真实 性 
能 。 值 得 庆幸 的 是 ， 学 术 界 往往 会 移 到 新 的 〈 通 利 会 更 巨大 、 更 具 挑 成 
性 ) 基准 数据 集 上 。 


5.3.1 交叉 验证 


将 数据 集 分 成 固定 的 训练 集 和 固定 的 测试 集 后 ， 乔 测试 集 的 误差 很 小 ， 
这 将 古 有 问题 的 。 一 个 小 规模 的 测试 集 意味 看 平均 测试 误 天 信 计 的 统计 
不 确定 性 ， 使 得 很 难 判断 算法 A 是 合 比 算法 B 在 给 定 的 任务 上 做 得 更 
好 。 


当 数 扼 集 有 十 万 计 或 者 更 多 的 样本 时 ， 这 不 会 是 一 个 严重 的 问题 。 当 数 
扼 集 太 小 时 ， 也 有 苦 代 方法 允许 我 们 使 用 所 有 的 样本 佑 计 平 均 测 试 误 
于， 代价 是 增加 了 计算 量 。 这 些 过 程 是 基于 在 原始 数据 上 随机 采样 或 分 
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过 程 ， 如 算法 5.1 所 示 ， 将 数据 集 分 成 k 个 不 重合 的 子 集 。 测 试 误 甜 可 以 
估计 为 k 次 计算 后 的 平均 测试 误 过 。 在 第 i 次 测试 时 ， 数 据 的 第 i 个 子 集 用 
于 测试 集 ， 其 他 的 数据 用 于 训练 集 。 和 珊 来 的 一 个 问题 是 不 存在 平均 误 午 
方差 的 无 偏 估计 (Bengio and Grandvalet, 2004) ， 但 是 我 们 通常 会 使 
用 近似 来 解决 。 





算法 5.1 ”kk- 折 交叉 验证 算法 。 当 给 定数 据 集 || 对 于 简单 的 训练 /测试 
或 训练 /验证 分 割 而 言 太 小 难以 产生 泛 化 误差 的 准确 估计 时 《因为 在 小 

的 测试 集 上 ， 工 可 能 具有 过 高 的 方差 ) ，k- 折 交叉 验证 算法 可 以 用 于 估 

计 学 习 算 法 A 的 泛 化 误差 。 数 据 集 | ) 包含 的 元 素 是 抽象 的 样本 z 中 (对 
于 第 i 个 样本 ) ， 在 监督 学 习 的 情况 代表 (输入, 目标) 对 z=(x Oy ® 
)， 或 者 无 监督 学 习 的 情况 下 仅 用 于 输入 z@ =x © 。 该 算法 返回 上) 中 每 
个 示例 的 误差 向 量 e， 其 均值 是 估计 的 泛 化 误差 。 单 个 样本 上 的 误差 可 

用 于 计算 平均 值 周围 的 置信 区 间 GR (5.47) ) 。 虽 然 这 些 置 信 区 间 在 
使 用 交叉 验证 之 后 不 能 很 好 地 证 明 ， 但 是 通常 的 做 法 是 只 有 当 算 法 A 误 
差 的 置信 区 间 低 于 并 且 不 与 算法 B 的 置信 区 间 相 交 时 ， 我 们 才 声 明 算 法 
A 比 算法 B 更 好 。 





Define KFoldXV(|| ) ,A,L,k): 
Require: D 为 给 定数 据 集 ， 其 中 元 素 为 z 中 


Require: ”人 A 为 学 习 算 法 ， 可 视 为 一 个 函数 使 用 数据 集 作 为 输入 ， 输 
出 一 个 学 好 的 函数 ) 


Require: “ 工 为 损失 函数 ， 可 视 为 来 自学 好 的 函数 f， 将 样本 (i) cD 
UNI] 中 标量 的 函数 


Require: k 为 打数 
将 | )》 分 为 k 个 互 斥 子 集 [); ， 它 们 的 并 集 为 [7 


for i from 1 to k do 
fi = A(D\D,) 
for z in D ; do 
e; = L( fi, z) 
end for 
end for 


Return e 





5.4 (hit. MAM Te 

统计 领域 为 我 们 提供 了 很 多 工具 来 实现 机 器 学 习 目 标 ， 不 仅 可 以 解决 训 
练 集 上 的 任务 ， 还 可 以 泛 化 。 基 本 的 概念 ， 例 如 参数 估计 、 偏 差 和 方 
差 ， 对 于 正式 地 刻画 泛 化 、 欠 拟 合 和 过 拟 合 都 非常 有 帮助 。 

5.4.1 点 估计 


扩 信 计 试图 为 一 些 感 兴 趣 的 量 拓 供 单 个 “最 优 ” 预 测 。 一 般 地 ， 感 兴趣 的 
量 可 以 是 单个 参数 ， 或 是 未 些 参数 模型 HST el BZ 数 ， 例 如 第 5.1.4 
线性 回归 中 的 权重 ， 但 是 也 有 可 能 是 整个 函数 。 


为 了 区 分 参数 估计 和 真实 值 ， 我 们 习惯 将 参数 6 的 点 估计 表示 为 @ 。 


Sf)... g) 是 m 个 独立 同 分 布 〈iid.) 的 数据 点 。 点 估计 
(point ror: 或 统计 量 (statistics) 是 这 些 数 据 的 任意 函数 : 
Om = — g(x mt ps g\™)) (5.19) 


这 个 定义 不 要 求 g 返 回 一 个 接近 真实 9 WV, Beer eH te E 9 的 多 
主 取 值 范 围 。 扣 估计 的 定义 非常 冤 沁 ， 给 了 估计 量 的 设计 者 极 大 的 灵活 


性 。 虽 然 几 乎 所 有 的 函数 都 可 以 称 为 佑 计量 ， 但 是 一 个 展 好 的 佑 计量 的 
输出 会 接近 生成 训练 数据 的 真实 参数 0 。 


现在 ， 我 们 采取 冰 率 小 在 统计 上 的 观 扣 。 换 言 之 ， 我 们 假 议 其 实 参数 0 
是 固定 但 未 知 的 ， 而 氮 佑 计 O 定数 据 的 函数 。 由 于 数据 征 随机 过 程 采 样 
出 来 的 ， 数 据 的 任何 函数 都 是 随机 的 ， 因 此 O 是 一 个 随机 变量 。 


扩 信 计 也 可 以 指 输入 和 目标 变量 之 间 天 系 的 估计 ， 我 们 将 这 种 类 型 的 后 
{ETT PRAT K BUF o 


函数 估计 有 时 我 们 会 关注 函数 估计 (或 函数 近似 ) 。 这 时 我 们 试图 
从 输入 向 量 x 预测 变量 y 。 假 设 有 一 个 函数 f( x ER y 和 x 之 间 的 近似 
关系 。 例 如 ， 我 们 可 能 假设 Y 二 了 (Zz) te, HE 是 y 中 未 能 从 
x 预测 的 一 部 分 。 在 函数 估计 中 ， 我 们 感 兴趣 的 是 用 模型 佑 计 去 近似 f， 
或 者 估计 户 。 函 数 估计 和 估计 参数 9 是 一 样 的 ， 函 数 估计 是 函数 空间 
中 的 一 个 点 估计 。 线 性 回归 示例 〈 第 5.1.4 节 中 讨论 的 ) 和 多 项 式 回归 示 
例 〈 第 5.2 节 中 讨论 的 ) 都 既 可 以 被 解释 为 估计 参数 w， 又 可 以 被 解释 为 
估计 从 x 到 y 的 函数 映射 有 。 


现在 我 们 回顾 点 估计 最 党 研究 的 性 质 ， 并 探讨 这 些 性 质 说 明了 估计 的 哪 
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5.4.2 (ine 
AGT AN Vis Ze A FE SOY 
bias(@,,) = E(@,,) — 0 (5.20) 


其 中 期 尾 作 用 在 所 有 数据 《看 作 从 随机 变量 采样 得 到 的 ) 上 ， 6 是 用 于 
定义 数据 生成 分 布 的 8 的 真实 值 。 如 果 bias(gm) = 0 ， 那 么 估计 量 
Q 被 称 为 是 无 偏 (unbiased) ， 这 意味 着 (0,,,) 二 9， 。 如 果 
lim bias(@,,) = 0 ， 那 么 估计 量 6 ， 被 称 为 是 渐 近 无 信 
1 一 CO 


(asymptotically unbiased) , XERA lim E(0,, ) 0. 
M06 | 


示例 : 伯 努 利 分 布 “考虑 一 组 服从 均值 为 6 的 伯 努 利 分 布 的 独立 同 分 布 
HEAR oO) wee , : 
P(z™: 6) = 0 0 —@)G-#) (5.21) 


这 个 分 布 中 参数 9 的 第 用 估计 量 是 训练 样本 的 均值 : 





1 : 
和 = — a) 4 
7m = Ss” I (5 22) 
1 
Fl TIX Mi se A m RII (5.22) 代入 式 (5.20) : 
bias(ĝ,n) = El0,, 一 起 (5.23) 
= E = `. g — 0 (5.24) 
ES 
7 - dE [| ies ey 
=1 
m 1 
oo 一 + Gat 2 gyre) = (5.26) 
i=l 700 
1 m 
= 一 >》(g) 一 6 (5.27) 
i=1 
=g-g -ü (5.28) 


因为 bias(O )=0， 我 们 称 估 计 g 是 无 偏 的 。 

示例 : 均值 的 蜗 斯 分 布 估计 现在 ， 考 虑 一 组 独立 同 分 布 的 样本 
fo)... OO) 服从 高 斯 分 布 p(ZtO) 二 和 NV (zt; Na2) ， 其 中 
i {1 ,77 上。 回顾 高 斯 概率 密度 函数 如 下 ; 

= exp (-3 = = wr) (5.29) 


rey SOT Ey eS HY Fas A fon Th IK AE AS Ey (sample mean) : 








p(x: u, o°) = 


rh 


A 1 2 c 
Hm = = > r! ) (5.30) 


=i 


FUT AFA LE ce aA m BOAT ES 


bias( {tm ) 一 El fim! — H (5.31) 
1 m | 

-== 一 一 rl) 一 5 32 

a | 1 (5.32) 


=pu—-pw=O0 (5.85) 
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示例 : 蜗 斯 分 布 方差 估计 ”本 例 中 ， 我们 比较 高 斯 分 布 方差 参数 go“ 的 
两 个 不 同 估 计 。 我 们 探讨 是 否 有 一 个 是 有 偏 的 。 


我 们 考虑 的 第 一 个 方 莽 估计 人 锐 称 为 样本 方 过 (sample variance) : 


其 中 心太 是 样本 均值 。 更 形式 化 地 ， 我 们 对 计算 感 兴趣 
baot =E] -o (5.37) 


m 


RITE MEJ] : 





| 1 mM : 9 
RI62 1 二 下 | 二 (zs® G inn 5.38 
Pai T D I H (5 ) 
al, 
-2 g (5.39) 


m 


回 到 式 〈5.37) ， 我 们 可 以 得 出 52， 的 偏差 是 一 g2 /m 。 因 此 样本 方差 
是 有 偏 估计 。 


EmA (unbiased sample variance) 估计 : 


7 1 m i 9 = 
G2 = 2 (al Pe fim (5.40) 
hE S RPAN. IEW ASAT, RMT eC. RAZ, 
我 们 会 发 现 E|564] = 07: 











"E 1 m W 2 "E 
Elo; | z = 2 (a — pl ) (5.41) 
m ot 
= Kor 5.42 
"Bia (5.42) 
om (2 — 1 a?) (5.43) 
m — 1 m 
=i (5.44) 


我 们 有 两 个 佑 计量 : Se A, FETC © TC ti Oh ae 
然 是 令 人 满意 的 ， 但 它 并 不 忌 是 “最 好 ”的 估计 。 我 们 将 看 到 ， 经 第 会 使 
用 其 他 具有 重要 性 质 的 有 偶 佑 计 。 


5.4.3 Ji FAME 


BOAT IN 2375 Fe (PY 9 Et EEN BP ASE ee, EB 
Behe e 7. EMRAT ATP Soh a OR EC es R 
们 也 可 以 计算 它 的 方 达 。 估 计量 的 方 大 (variance) mwe- DIA: 


AN 


Var(@) (5.45) 


其 中 随机 变量 是 训练 集 。 态 外 ， 方 震 的 平方 根 被 称 为 你 惟 产 (standard 
error) ， 记 作 SE Q? 。 


舍 计 量 的 方 过 或 标准 差生 诉 我 们 ， 当 独立 地 从 洲 在 的 数据 生成 过 程 中 重 
采样 数据 集 时 ， 如 何 期 许 佑 计 的 变化 。 正 如 我 们 希望 估计 的 偶 关 较 小 ， 
我 们 也 希望 其 方 过 较 小 。 


当 我 们 使 用 有 限 的 样本 计算 任何 统计 量 时 ， 真 实 参数 的 信 计 部 古 不 确定 
的 ， 在 这 个 意义 下 ， 从 相同 的 分 布 得 到 其 他 样本 时 ， 它 们 的 统计 量 也 会 
不 一 样 。 任 何方 过 佑 计量 的 期 望 程度 是 我 们 外 量化 的 误 兰 的 来 源 。 


KHE AS a ve Fe #8 10 VE 


(5.46) 





其 中 o“ 是 样本 xO 的 真实 方差 。 标 准 差 通常 被 记 作 go。 可 惜 ， 样 本 方差 
的 平方 根 和 方 天 无 依 佑 计 的 平方 根部 个 是 标准 大 的 无 仿 信 计 。 这 两 种 计 
ST YAM UR] Ta SE eee, (AVS Seb . dd am 
无 偏 估计 的 平方 根 较 少 被 低估 。 对 于 较 大 的 m， 这 种 近似 非常 合 


均值 的 标准 差 在 机 霹 学 习 实 验 中 非常 有 有 用。 我们 通 第 用 测试 集 样本 的 误 
到 均值 来 估计 沁 化 误 和 大。 测试 集中 样本 的 数量 决定 了 这 个 估计 的 精确 
度 。 中 心 极限 定理 告诉 我 们 均 信 会 接近 一 个 高 斯 分 布 ， 我 们 可 以 用 标 堆 
关 计 算出 芮 实 期 亚洲 在 选 定 区 间 的 概率 。 例 如 ， 以 均 信 人 为 中 心 的 
95% fa X JB] ze 


(fim — 1.96SE(fim), Am + 1.96SE (Am )) (5.47) 


以 上 区 间 是 基于 均值 儿 y,， 和 方差 SE(f,)” 的 高 斯 分 布 。 在 机 器 学 习 
实验 中 ， 我 们 通 第 说 算法 A 比 算法 B 好 ， 是 指 算 法 A 的 误 甜 的 95% 置 信 区 
间 的 上 界 小 于 算法 B 的 误差 的 95% 置 信 区 间 的 下 界 。 


不 例 : 伯劳 利 分 布 我 们 再 次 考虑 从 但 努 利 分 布 〈 回 顾 
ao )= = p (1 一 0)1-*”") ”中 独立 同 分 布 采样 出 来 的 一 组 样本 
{a Zn) 。 这 次 我 WEIN, = LE MO 的 方差 : 


= A l Éva k? i ) (5.49) 

= 一 La 的 (5.50) 
m? = 

= —~m6(1 — 0) (5,51) 
1 

二 类 一 的 (5.52) 
m 


WB TPE Ta AN PERREN T ARA H mY BR BL -e tens 
量 的 普 过 性质， 在 探讨 一 致 性 〈 人 参见 第 5.4.5 节 ) 时 ， 我 们 会 继续 讨论 。 


5.4.4 权 衔 偏差 和 方差 以 最 小 化 均 方 误差 


Vint Ze A Dy Fe FE ee a PEN PS AN Te) A RU on He PE A mA RK BR 
DUNMBBUN AEE, WA AREA Ba EE EO AT ESB rh 
th ES ti Ze 


Ta TT ATE “Pte Se AVI AP ae XE Tee TT Hea 
HF, REETA? 我 们 该 如 何 选 择 ? PO, AA Ae UT AS.2 
中 的 函数 ， 如 果 只 可 以 选择 一 个 偏差 较 大 的 估计 或 一 个 方差 较 大 的 估 
Fo RANZEN? 


判断 这 种 权衡 最 常用 的 方法 是 交叉 验证 。 经 验 上 ， 交 叉 验证 在 真实 世界 

的 许多 任务 中 部 非常 成 功 。 男 外 ， 我 们 也 可 以 比较 这 些 估计 的 均 方 误 到 
(mean squared error, MSE) : 

MSE = E[(6m — 6)"] (5.5: 

= Bias(ĝm)? + Var (Arn ) (5. 

MSE ETEME KASAO BPP TT RE EN AAE mE U 


(5.54) 所 示 ，MSE 估 计 包 含 了 信和 到 和 和 方 牵 。 理 想 的 估计 其 有 较 小 的 
MSEE ERA PRIMAR CII EMN Eo 


on on 


Wi Fe AT AK AR SAL I A. RD a A Sa EK o 

FAMSEFS Siz hin OMAN AA Piz tire ave Am XIN) 时 ， 增 
JA eee TT Fe. PR Ae HUS.6 Rtas, BAAR TER FY A ey 

PRI ASP BZ HC AE UT Hk 







欠 拟 合 区 域 过 拟 合 区 域 


12 Hinze 


最 优 容量 容量 
图 5.6 ” 当 容量 增 大 (x 轴 ) M, M MARR) 随 之 减 小 ， 而 方差 虚线 ) 随 之 增 大 ， 使 得 
泛 化 误差 (加 粗 曲 线 ) 产生 了 另 一 种 U 形 。 如 果 我 们 沿 着 轴 改 变 容量 ， 会 发 现 最 佳 容量 ， 当 容 
量 小 于 最 佳 容量 会 呈现 欠 拟 合 ， 大 于 时 导致 过 拟 合 。 这 种 关系 与 第 5.2 节 以 及 图 5.3 中 讨论 的 容 
量 、 欠 拟 合 和 过 拟 合 之 间 的 关系 类 似 


5.4.5 “一致 性 


目前 我 们 已 经 探讨 了 固定 大 小 训练 集 下 不 同 信 计量 的 性 质 。 通 第 ， 我 们 
也 会 关注 训练 数据 增多 后 信 计 量 的 效果 。 特 别 地 ， 我 们 希望 当 数 据 集 中 
数据 点 的 数量 m 增 加 时 ， 操 信人 计 会 收 乓 到 对 应 参数 的 真实 值 。 更 形式 化 
W, RATEZ 








A 


Plt. «nlm, = 8 (5.55) 
P(|6m — 0| > 6) > 0 . R (5.55) 表示 的 条 件 被 称 为 一 致 性 


(consistency) 。 有 时 它 是 指 弱 一 致 性 ， 强 一 致 性 是 指 儿 乎 必然 

(almost sure) MQ WAR. JL Parco (almost sure 
convergence) 是 指 当 pllimn ， x M=x )=1N, BALA Ix, x 人) 
, WCB X 。 


BUERE S187 VP se HY tint Ze oe BT EAS ES 2 ia. PATA, 
过 来 是 不 正确 的 一 渐 近 无 偏 并 不 意味 着 一 致 性 。 例 如 ， 考 虑 用 包含 m 
个 样本 的 数据 集 人 区 人 ，…，x 四 )} 估 计 正 态 分 布 N(Z; u, 07) 的 均值 参 
数 h。 我 们 可 以 使 用 数据 集 的 第 一 个 样本 x ”作为 无 偏 估计 量 : 
Ô 二 r) 。 在 该 情况 下 ， 开 (0 ) = 9 ， 所 以 不 管 观测 到 多 少数 据 
反 ， 该 佑 计量 都 是 无 俩 的 。 然 而 ， 这 不 是 一 个 一 致 伯 计 ， 因 为 它 个 请 在 
“m-—oolhf, @ 0 。 


Trl 


5.5 ”最 大 似 然 估 计 

之 前 ， 我 们 已 经 看 过 常用 估计 的 定义 ， 并 分 析 了 它们 的 性 质 。 但 是 这 些 
估计 是 从 哪里 来 的 呢 ? 我 们 希望 有 些 准 则 可 以 让 我 们 从 不 同 模型 中 得 到 
特定 函数 作为 好 的 估计 ， 而 不 是 猜测 某 些 函数 可 能 是 好 的 估计 ， 然 后 分 
析 其 偏差 和 方差 。 

最 常用 的 准则 是 最 大 似 然 估计 。 


考虑 一 组 含有 m 个 样本 的 数据 集 叉 = fae... OM) ， 独 立地 由 
未 知 的 真实 数据 生成 分 布 p jj (Xx) 生成 。 


&p model (x 5 0 ) 是 一 族 由 0 确定 在 相同 空间 上 的 概 训 分 布 。 换言之 ， p 
model (x;0 ) 将 任意 输入 X 了 映射 到 实数 来 估计 真实 概率 P data (X )。 


对 6 的 最 六 似 然 佑 计 航 定义 为 





OML = arg max Dmodel (X; 0) (5:56) 
0 
m 
= are max [| pmodel (2; 0) Garg 
0 aa 
et 


多 个 概率 的 乘积 会 因 很 多 原因 不 便于 计算 。 人 例如， 计算 中 很 可 能 会 出 现 
数值 下 洲 。 为 了 得 到 一 个 便于 计算 的 等 价 优化 问题 ， 我 们 观 穴 到 似 然 对 
数 不 会 改变 其 arg max， 但 是 将 乘积 转化 成 了 便于 计算 的 求 和 形式 : 


gal 
OM = arg max X log pmodal (x ®: 0) (5.58) 
0 ) 
(于 


因为 当 重 新 缩放 代价 函数 时 arg max 不 会 改变 ， 我 们 可 以 除 以 m 得 到 和 训 
练 效 据 经 验 分 布 了 data 相关 的 期 淮 作 为 准则 : 


OML 2 arg max Ex P log Pmodel (a 0) (5.59) 
0 


一 种 解释 最 大 似 然 估 计 的 观点 是 将 它 看 作 最 小 化 训练 集 上 的 经 验 分 布 了 
aa 和 模型 分 布 之 间 的 差异 ， 两 者 之 间 的 关 异 程度 可 以 通过 KEL 散 上 度 度 
量 。KL 散 度 被 定义 为 


Dy (Daata = ) — | a: O [log Pata (x ) a log Pmodel (x )| (5. 60) 


AA — TM RHEE MEE, APRA TO. SERE SIAR h 
化 KL 散 上 度 时 ， 我 们 只 需要 最 小 化 


m log Pmodel (x )| (5.61 ) 
当然 ， 这 和 式 (5.59〉 中 最 大 化 是 相同 的 。 


最 小 化 KL 散 度 其 实 就 是 在 最 小 化 分 布 之 间 的 交叉 粹 。 许 多 作者 使 用 术 
语 “ 交 叉 炉 ”特定 表示 伯 努 利 或 softmax 分 布 的 负 对 数 似 然 ， 但 那 是 用 词 丰 
当 的 。 任 何 一 个 由 负 对 数 似 然 组 成 的 损失 都 是 定义 在 训练 集 上 的 经 验 分 
布 和 定义 在 模型 上 的 概率 分 布 之 间 的 交叉 粒 。 例 如 ， 均 方 误差 是 经 验 分 
布 和 高 斯 模型 之 间 的 交叉 科 。 


我 们 可 以 将 最 大 似 然 看 作 使 模型 分 布 尽 可 能 地 和 经 验 分 布 p data FAVE AC 
的 笑 试 。 理 想 情 况 下 ， 我 们 希望 匹配 真实 的 数据 生成 分 布 p gaa > BR 
们 无 法 直接 知道 这 个 分 布 。 


虽然 最 优 6 在 最 大 化 似 然 或 是 最 小 化 KL 黎 度 时 是 相同 的 ， 但 目标 函数 
值 是 个 一 样 的 。 在 软件 中 ， 我 们 退 闸 将 两 者 部 称 为 最 小 化 代价 函数 。 
此 最 大 化 似 然 变 成 了 最 小 化 负 对 数 似 然 (NLL) ， 或 者 等 价 的 是 最 小 化 
交叉 焙 。 将 最 大 化 似 然 看 作 最 小 化 KL 散 度 的 视角 在 这 个 情况 下 是 有 和 帮 
助 鸭 ， 因 为 已 知 KE 和 散 度 最 小 值 是 霍 。 当 x 取 实数 时 ， 负 对 数 似 然 是 负 
值 。 


5.5.1 条件 对 数 似 然 和 的 方 误 大 


最 大 似 然 估计 很 容易 扩展 到 估计 条 件 概 率 P (y |x ;9 )， 从 而 给 定 x 预测 y 
。 实 际 上 这 十 最 第 见 的 情况 ， 因 为 这 构成 了 大 多 数 监 督学 习 的 基础 。 如 
AX 表示 所 有 的 输入 ， Y 表示 我 们 观测 到 的 目标 ， 那 么 条 件 最 大 似 然 
{Hil se 


Oui = argmaxP(Y | X;6@) (5:62) 
0 
如 果 假 设 样本 是 独立 同 分 布 的 ， 那 么 式 〈5.62)〉 可 以 分 解 成 


OML = arg max Ò log P(y | 2'0;0) (5.63) 

示例 : 线性 回归 作为 最 大 似 然 。 第 5.1.4 节 介绍 的 线性 回归 ， 可 以 被 看 
作 最 大 似 然 过 程 。 之 前 ， 我 们 将 线性 回归 作为 学 习 从 输入 x 映射 到 和 输出 
Y INA. MxBlly 的 映射 选 目 最 小 化 均 方 误 码 我 们 或 多 或 少 介 绍 的 
一 个 标准 ) 。 现 在 ， 我 们 以 最 大 似 然 估 计 的 角度 重新 审视 线性 回归 。 我 
MINED ERA EERE] x )， 而 不 只 是 得 到 一 个 单独 的 
预测 YY 。 想 象 有 一 个 无 限 大 的 训练 集 ， 我 们 可 能 会 观测 到 几 个 训练 样本 
有 相同 的 输入 x 但 是 不 同 的 y。 现 在 学 习 算 法 的 目标 是 拟 合 分 布 p(y | x) 
到 和 x 相 匹 配 的 不 同 的 y。 为 了 得 到 我 们 之 前 推导 出 的 相同 的 线性 回归 
算法 ， 我 们 定义 p(y | x) = N(y;ĝl(z; w), o?) 。 BAHL; w) 
TU TA. FERS BIG, RIRKA AEH ENEA E 
0“。 这 种 函数 形式 p(y | x ) 会 使 得 最 大 似 然 估 计 得 出 和 之 前 相同 的 学 习 
算法 。 由 于 假设 样本 是 独立 同 分 布 的 ， 条 件 对 数 似 然 〈 式 《〈5.63) ) 如 
下 


>》 log p(y? |e; 8) (5.64) 
=i 


m = |g i yl" 
= — m log o — T log(27) — > (5.65) 


Hg) 是 线性 回归 在 第 个 输入 xO 上 的 输出 ，m 是 训练 样本 的 数目 。 
Xt LEIS H RFE AFT BULK, 


1 m 
MS Erain e on X 
190: = 

i=! 


ee 
p- y® | (5.66) 








我 们 立刻 可 以 看 出 ， 最 大 化 天 于 w ADT OPA A EEIN RE Se FB] 
相同 的 参数 信 计 w 。 但 是 对 于 相同 的 最 优 w ， 这 两 个 准则 有 看 个 同 的 
值 。 这 验证 了 MSE 可 以 用 于 最 大 似 然 信 计 。 正 如 我 们 将 看 到 的 ， 最 大 似 
然 估计 有 有 几 个 理想 的 性 质 。 


5.5.2 E NIZA HTE 


最 大 似 然 们 计 最 吸引 人 的 地 方 在 于 ， 它 被 证 明 当 样本 数目 mw% 时 ， 丈 
收 伍 率 而 言 是 最 好 的 渐 近 估计 。 


合适 的 条 件 下 ， 最 大 似 然 估计 具有 一 致 性 参考 第 5.4.5 节 ) ， 意 味 着 
训练 样本 数目 趋向 于 无 穷 大 时 ， 参 数 的 最 大 似 然 估计 会 收 仇 到 参数 的 真 


实 值 。 这 些 条 件 是 : 


© 真实 分 布 p gaa 必须 在 模型 族 p mode) C; 8 ) 中 。 和 否则 ， 没 有 估计 可 以 
还 原 p data ° 

© 真实 分 布 p dq 必须 刚好 对 应 一 个 0 值 。 否 则 ， 最 大 似 然 估计 恢复 
出 真实 分 布 p jj 后， 也 不 能 决定 数据 生成 过 程 使 用 哪个 0 。 


除了 最 大 似 然 佑 计 ， 还 有 其 他 的 归纳 和 准则， 其 中 许多 共享 一 致 佑 计 的 性 

质 。 然 而 ， 一 致 佑 计 的 统计 效率 (statistic efficiency) FY REX FIR XK. 

肝 些 一 致 估计 可 能 会 在 固定 数目 的 样本 上 获得 一 个 较 低 的 泛 化 误 乱 ， 或 
等 价 地 ， 可 能 只 需要 较 少 的 样本 束 能 达到 一 个 固定 程度 的 泛 化 误差 。 


统计 效率 通常 用 于 有 参 情 况 (parametric case) 的 研究 中 (例如 线性 回 
归 ) 。 在 有 参 情 况 中 ， 我 们 的 目标 是 估计 参数 值 〈 假 设 有 可 能 确定 真实 
BN) ， 而 不 是 函数 值 。 一 种 度量 和 呐 实 参数 相差 多 少 的 方法 是 计算 均 
方 误 大 的 期 虹 ， 即 计算 m 个 从 数据 生成 分 布 中 出 来 的 训练 样本 上 的 估计 
参数 和 真实 参数 之 则 天 值 的 平方 。 有 参 均 方 误 天 估计 随 着 m 的 增加 而 减 
少 ， 当 m 较 大 时 ，Cramér-Rao 下 界 (Rao, 1945; Cramér, 1946) 表明 
不 存在 均 方 误 堪 低 于 最 大 似 然 估计 的 一 八 估 计 。 


因为 这 些 原 因 《“ 一 致 性 和 统计 效率 ) ， 最 大 似 然 通常 是 机 占 学 习 中 的 前 
选 估计 方法 。 当 样本 数目 小 到 会 及 生 过 拟 合 时 ， 正 则 化 策略 如 权重 桶 减 
可 用 于 获得 训练 数据 有 限时 方 牵 较 小 的 最 大 似 然 有 仿 版 本 。 


5.6” 贝 叶 斯 统计 


至 此 我 们 已 经 讨论 了 频率 派 统计 (frequentist statistics) 方法 和 基于 个 
计 单 一 值 8 的 方法 ， 然 后 基于 该 估计 作 所 有 的 预测 。 男 一 种 方法 是 在 做 
预测 时 会 考虑 所 有 可 能 的 ”9  。 后 者 属于 贝 叶 斯 统计 (Bayesian 


statistics) 的 范畴 。 


正如 第 5.4.1 贡 中 讨论 的 ， 频 率 小 的 视角 是 其 实 参 数 0 是 未 知 的 定 值 ， 而 
RATHO 古 考虑 数据 集 上 函数 (可 以 看 作 随 机 的 的 随机 变量 。 


贝 叶 斯 统计 的 视角 完全 不同 。 贝 叶 斯 统计 用 概率 反映 知识 状态 的 确定 性 
程度 。 数 据 集 能 够 仆 直 接 观 测 到 ， 因 此 不 是 随机 的 。 帮 一 方面 ， 其 实 参 
数 9 是 未 知 或 不 确定 的 ， 因 此 可 以 表示 成 随机 变量 。 


在 观察 到 数据 前 ， 我 们 将 0 的 已 和 知识 表示 成 先 验 概率 分 布 (prior 
probability distribu-tion) , p( 6 )( 有 时 人 简 旱地 称 为 “ 先 验 ”) 。 一 般 而 
言 ， 机 妖 学 习 实 践 者 会 选择 一 个 相当 客 沁 的 〈( 即 ， 禹 燃 的 ) 先 验 分 布 ， 
以 反映 在 观测 到 任何 数据 前 参数 9 的 高 度 不 确定 性 。 例 如， 我 们 可 能 会 
假设 先 验 9 在 有 限 区 间 中 均匀 分 布 。 许 多 先 验 偏好 于 “更 简单”? 的 解 〈《 如 
小 幅度 的 系数 ， 或 是 接近 单数 的 函数 ) 。 


现在 假设 我 们 有 一 组 数据 样本 {z(D ,.. ,zt ， 通 过 贝 叶 斯 规则 结 
合 数据 似 然 px GD ，…，x ™ | 06) 和 先 验 ， 可 以 恢复 数据 对 我 们 关于 0 
言 念 的 影响 : 


wal He got 
oe ea E 
p(0 ja... g0) = pl (5.67) 


FEU SOT E ES Tse BR FEST a ce AT by Jo} i re AA HS ve ST 
PAT + NUL SEI A oe ES SO IRS PE, FPS ESCH J LP N he HEAR 
局 的 值 。 


相对 于 最 大 似 然 估计 ， 贝 叶 斯 估计 有 两 个 重要 区 别 。 第 一 ， 不 像 最 大 似 
然 方法 预 囊 时 使 用 8 的 点 估计 ， 贝 叶 斯 方法 使 用 8 的 全 分 布 。 例 如 ， 在 
观测 到 m 个 样本 后 ， 下 一 个 数据 样本 x OOD) 的 预测 分 布 如 下 : 


p(t) | oA). Tsë , TA™)) apem | 0)p(0 | rh), NER x0) do (5.68) 


这 里 ， 每 个 具有 正 概率 密度 的 0 的 值 有 助 于 下 一 个 样本 的 预测 ， 其 中 页 
献 由 后 验 密度 本 身 加 权 。 在 观测 到 数据 集 {x 门 …,x(} 之 后 ， 如 果 我 们 
仍然 非常 不 确定 8 的 值 ， 那 么 这 个 不 确定 性 会 耳 接 包含 在 我 们 所 做 的 任 
何 预测 中 。 


在 第 5.4 广 中， 我们 已 经 探讨 频率 派 方法 解决 给 定 扣 估计 0 的 不 确定 性 
的 方法 是 评 佑 方 关 ， 佑 计 的 方差 评估 了 观测 数据 重新 从 观测 数据 中 采样 
后 ， 估 计 可 能 如 何 变 化 。 对 于 如 何 处 理 估计 不 确定 性 的 这 个 问题 ， 贝 叶 
斯 派 的 深 采 是 积分 ， 这 往往 会 防止 过 拟 合 。 当 然 ， 积 分 仅仅 是 概率 法 则 
的 应 用 ， 使 贝 叶 斯 方法 容易 验证 ， 而 频 京 派 机 带 学 习 基 于 相当 特 列 的 决 
定 构 建 了 一 个 信 计 ， 将 数据 集 里 的 所 有 信息 归纳 到 一 个 单独 的 后 估计 。 


贝 叶 斯 方法 和 最 大 似 然 方法 的 第 二 个 最 大 区 别 古 由 贝 叶 斯 完 验 分 布 造 成 
的 。 先 验 能 够 影响 概率 质量 密度 阳 参 数 空间 中 人 筷 好 先 验 的 区 域 仿 移 。 实 
践 中 ， 先 验 通 第 表现 为 仿 好 更 体 单 或 更 光 背 的 模型 。 对 贝 叶 斯 方法 的 批 
判 认 为 ， 先 验 是 人 为 主观 判断 影响 预测 的 来 源 。 


当 训 练 数据 很 有 限时 ， 贝 叶 斯 方法 通 第 泛 化 得 更 好 ， 但 古 当 训练 样本 数 
上 很 大 时 ， 通 第 会 有 很 大 的 计算 代价 。 


示例 ， 贝 叶 斯 线性 回归 ”我 们 使 用 贝 叶 斯 估计 方法 学 习 线 性 回归 的 参 
数 。 在 线性 回归 中 ， 我 们 学 习 从 输入 向 量 p Cc IR” 预测 标量 
y E 及 的 线性 映射 。 该 预测 由 向 量 ) E IR” Sat: 





j=w Zz (5.69) 


Ae — Am SARE AR CX Crain ，y Crain) ) ， 我 们 可 以 表示 整个 训 
练 集 对 y 的 预测 : 


ven) a y (train) yy (5.70) 


RANA y Mio 上 的 高 斯 条 件 分 布 ， 我 们 得 到 


p(y (train) | x (train) ay) = N (yain). x (train) ay T) (5.71) 
x exp (ie = eg) ig E: gid) (5.72) 
Hp, RIRI PE HN MSEZ A E y FAN ie 7 Ze AL. EPP, A 
减少 符号 负担 ， 我 们 将 ( 对 “Woin) , y raind) ) ARRI CX, y 
) 。 


为 硝 定 模型 参数 癌 量 w 的 后 验 分 布 ， 我 们 首先 需要 指定 一 个 移 验 分 布 。 
先 验 应 设 反 映 我 们 对 这 些 参 数 取 值 的 信念 。 里 然 有 时 将 我 们 的 先 验 信念 
表示 为 模型 的 参数 很 难 或 很 不 卓然 ， 但 在 实践 中 我 们 通 第 假设 一 个 相当 
a ne ee Se 
Ivy 分 


p(w) = N(w; Mo, Ao) x exp (ic Ho) | AD (w = H)) (5.73) 
KP, pg FIA 9 DIERRE E se Pe ER 由 
确定 好 先 验 后 ， 我 们 现在 可 以 继续 确定 模型 参数 的 后 验 分 布 。 


p(w | X,Yy) x ply | X,w)p(w) (5.74) 


1 1 = a 
x Exp (-50 Pa Xw) (y 5 xw)) exp (ic aa Ho)" AG *(w a mo) ) (5.75) 


一 


1 ; 
x exp (3 (-2y" Xw 4 24) Ay'w) ) (5.76) 


a 


现在 我 们 定义 
Am 一 (X'X T Ay" 和 Hm 一 Am(X y T Aj Po 。 使 用 
这 些 新 的 变量 ， 我 们 友 现 后 验 可 改写 为 局 期 分 布 : 


1 = 1 Ee 
p(w | X,y) « exp (ic 一 5H Hn) (5.77) 


1 
X exp (io Pal An zi Hn) ) (5.78) 


分 布 的 积分 必须 归 一 这 个 事实 意味 着 要 删 去 所 有 不 包括 参数 癌 量 w 的 
项 。 式 (3.23) 显示 了 如 何 标准 化 多 元 高 斯 分 布 。 


检查 此 后 验 分 布 可 以 让 我 们 获得 页 叶 斯 推 其 效 束 的 一 些 百 和 党。 大 多 数 情 


Vuh, RAITRE H 9 =0。 如 果 我 们 设置 八 0 = Ag ， 那 么 hm 


CF 
对 w Ee Ob a AHL AS R is A BE DAE TH oy ayy ài qn 的 线性 回归 的 估计 是 
一 样 的 。 一 个 区 别 是 奉 a 设 为 0， 则 贝 叶 斯 估计 是 未 定义 的 一 我们 不 能 
将 贝 叶 斯 学 习 过 程 初 始 化 为 一 个 无 限 宽 的 w 先 验 。 更 重要 的 区 别 是， 由 
叶 斯 估计 会 给 出 一 个 协 方 兰 窍 阵 ， 表 示 w 所 有 不 同 值 的 可 能 范围 ， 而 不 
I ns 


5.6.1 最 大 后 验 CMAP) 估计 


原则 上 ， 我 们 应 该 使 用 参数 0 的 完整 贝 叶 斯 后 验 分 布 进 行 预 测 ， 但 单 点 
估计 第 第 也 是 需要 的 。 硕 望 使 用 点 估计 的 一 个 第 见 原 因 是 ， 对 于 大 多 数 
有 意义 的 模型 而 言 ， 大 多 数 涉及 贝 叶 斯 后 验 的 计算 是 非常 玉手 的 ， 点 估 
计 提 供 了 一 个 可 行 的 近似 解 。 我 们 仍然 可 以 让 先 验 影响 点 估计 的 选择 来 
利用 贝 叶 斯 方法 的 优点 ， 而 不 是 简单 地 回 到 最 大 似 然 估 计 。 一 种 能 够 做 
到 这 一 点 的 合理 方式 是 选择 最 大 后 验 CMaximum A Posteriori, MAP) 
点 估计 。MAP 佑 计 选 择 后 验 概 率 最 大 的 点 〈 或 在 0 是 连续 值 的 更 常见 情 
Oh, HERES ERA) : 


Omap = arg max p(@ | x) = arg max log p(a | 0) + log p(@) (5.79) 
0 0 


我 们 可 以 认 出 式 (5.79) 右边 的 log p( x | 6 ) 对 应 着 标准 的 对 数 似 然 
IH, log p( 0 ) 对 应 着 先 验 分 布 。 


例如 ， 考 虑 具有 高 斯 先 验 权重 w 的 线性 回归 模型 。 如 果 先 验 是 
N (w: 0. 172) » ABA (5.79) 的 对 数 先 验 项 正比 于 
熟悉 的 权重 衰减 惩罚 Wu) w ， 加 上 一 个 不 依赖 于 w 也 不 会 影响 学 习 
过 程 的 项 。 因 此 ， 具 有 高 斯 先 验 权重 的 MAP 贝 叶 斯 推断 对 应 着 权重 误 

减 。 


正如 全 贝 叶 斯 推 有 着 ，MAP 贝 叶 斯 推 基 的 优势 是 能 够 利用 来 目 先 验 的 信 
思 ， 这 些 信 息 无 法 从 训练 数据 中 获得 。 该 附加 信息 有 助 于 减少 最 大 后 验 
点 合计 的 方 兰 〈《 相 比 于 ML 倍 计 ) 。 然 而 ， 这 个 优 氮 的 代价 是 增加 了 偶 


“To 


许多 正规 化 估计 方法 ， 例 如 权重 衰减 正则 化 的 最 大 似 然 学 习 ， 可 以 被 解 
释 为 贝 叶 斯 推 邮 的 MAP 近 似 。 这 个 适应 于 正则 化 时 加 到 目标 函数 的 附加 
项 对 应 着 log p( 9 )。 并 非 所 有 的 正则 化 惩 避 都 对 应 着 MAP 贝 叶 斯 推 呆 。 
例如 ， 有 些 正 则 化 可 能 不 是 一 个 概率 分 布 的 对 数 。 还 有 些 正 则 化 依赖 于 
数据 ， 当 然 也 不 会 是 一 个 先 验 概率 分 布 。 


MAP 贝 叶 斯 推 亲 提供 了 一 个 直观 的 方法 来 设计 复杂 但 可 解释 的 正则 化 。 
例如 ， 更 复杂 的 惩 姑 项 可 以 通过 混合 高 斯 分 布 作为 先 验 得 到 ， 而 不 是 一 
个 单独 的 高 斯 分 布 (Nowlan and Hinton, 1992) 。 


5.7 ME oF HY A 


H 5.1.30, PAM, i St A Be ce a ee S a A x A h y EY 
练 集 ， 学 习 如 何 关 联 输 入 和 输出 。 在 许多 情况 下 ， 输 出 y 很 难 目 动 收 
集 ， 必 须 由 人 来 提供 “监督 "， 不 过 访 术 语 仍然 适用 于 训练 集 目 标 可 以 被 
目 动 收 集 的 情况 。 


5.7.1 概率 监督 学 习 


本 书 的 大 部 分 监 千 学 习 算法 都 是 基于 佑 计 概 率 分 布 py | x ) 的 。 我 们 可 
以 使 用 最 大 似 然 佑 计 找 到 对 于 有 参 分 布 族 p(y | x ; 9 RENSA 0 


我 们 已 经 看 到 ， 线 性 回归 对 应 于 分 布 族 
p(y | £30) =N(y;6' x, I) (5.80) 


通过 定义 一 族 不 同 的 概率 分 布 ， 我 们 可 以 将 线性 回归 扩展 到 分 类 情况 
中 。 如 果 我 们 有 两 个 类 ， 类 0 和 类 1， 那 么 只 需要 指定 这 两 类 之 一 的 概 
率 。 类 1 的 概率 决定 了 类 0 的 概率 ， 因 为 这 两 个 值 加 起 来 必须 等 于 1。 


我 们 用 于 线性 回归 的 实数 正 态 分布 是 用 均值 参数 化 的 。 我 们 提供 这 个 均 
值 的 任何 值 剖 是 有 效 的 。 二 元 变量 上 的 的 分 布 和 人 微 复 林 些 ， 因 为 它 的 均 
值 必须 始终 在 0 和 1 之 则 。 人 解决 这 个 问题 的 一 种 方法 是 使 用 logistic 

~ acti CO, 1) . tea) DARREN 
Be 


p(y = 1| #0) =0(8' a) (5.81) 


这 个 方法 被 称 为 逻辑 回归 Cogistic regression) ， 这 个 名 字 有 点 奇怪 ， 
因为 该 模型 用 于 分 类 而 非 回 归 。 


线性 回归 中 ， 我 们 能 够 通过 求解 正规 方程 以 找到 了 最 佳 权重 。 相 比 而 言 ， 
偿 辑 回归 会 更 困难 些 。 其 最 佳 权 重 没 有 闭 解 。 反 之 ， 我 们 必须 最 大 化 对 
数 似 然 来 搜索 最 优 解 。 我 们 可 以 通过 梯度 下 降 算 法 最 小 化 负 对 数 似 然 来 
搜索 。 


退 过 确定 正确 的 输入 和 输出 变量 上 的 有 人参 条 件 概 紊 分布 族 ， 相 同 的 各 略 
基本 上 可 以 用 于 任何 监督 学 习 问 题 。 


5.7.2 <I eA 


支持 癌 量 机 (support vector machine, SVM) 是 监督 学 习 中 最 有 影响 力 
的 方法 之 一 《Boser et al. ，1992; Cortes and Vapnik, 1995) 。 类 似 于 
逻辑 回归 ， 这 个 模型 也 是 基于 线性 函数 wz 十 b 的 。 不 同 于 逻辑 回 
归 的 是 ， 支 持 向 量 机 不 输出 概率 ， 只 输出 类 别 。 当 wy 了 ge +h XE 
时 ， 支 持 向 量 机 预测 属于 正 类 。 类 似 地 ， 当 wp | e +h ARN, x 
持 同 量 机 预测 属于 负 类 。 


文 持 问 量 机 的 一 个 童 要 创新 是 核 拉 巧 (kemel trick) 。 核 拉 巧 观察 到 许 
多 机 侣 学 习 算法 都 可 以 写成 样本 间 点 积 的 形式 。 例 如 ， 文 持 问 量 机 中 的 
线性 函数 可 以 重 与 为 

w'xr+b=b+ > ajx a” (5:82) 


其 中 ，x VARMA, a 是 系数 向量 。 学 习 算 法 重 写 为 这 种 形式 允许 
我 们 将 x 但 换 为 特征 函数 pg( x AFT, AAR EPR AIR AK PH BL 
(kernel function) 的 函数 kx ， x )=0(x)-o( x9). IBA BRAY 
于 %(zZ) d(a™) 的 点 积 。 对 于 某 些 特征 空间 ， 我 们 可 能 不 会 书面 地 
使 用 同 量 内 积 。 在 荣 些 无 限 维 空间 中 ， 我 们 需要 使 用 其 他 关 型 的 内 积 ， 
人 这 种 类 型 内 积 的 完整 介绍 超出 了 本 书 的 范 
Ho 


EA iT SA Za, BET Ay DA A GB eR cast FT F 
f(a) =b+ Y ajk(a, 2™) (5.83) 


这 个 函数 关于 x 是 非 线 性 的 ， 关 于 q(x ERE. a 和 f( x LEIK 
系 也 是 线性 的 。 核 函数 完全 等 价 于 用 9( x ) 预 处 理 所 有 的 输入 ， 然 后 在 
新 的 转换 空间 学 习 线性 企 型 。 


核 拉 巧 十 分 强大 有 两 个 原因 : 其 一 ， 它 使 我 们 能 够 使 用 你 证 有 效 收 敛 的 
PDL CLARK AJ EATER AY CR x 的 函数 ) 。 这 征 可 能 的 ， 因 为 我 
们 可 以 认为 是 固定 的 ， 仅 优化 a， 即 优化 算法 可 以 将 诀 案 函数 视 为 不 同 
空间 中 的 线性 函数 。 其 二 ， 核 函数 k 的 实现 方法 通 稼 比 百 接 构 建 p( x ) 册 
算 反 积 噩 效 很 多 。 


在 某 些 情况 下 ，q( x  ) 其 至 可 以 是 无 限 维 的 ， 对 于 普通 的 显 式 方法 而 
言 ， 这 将 是 无 限 的 计算 代价 。 在 很 多 情况 下 ， 即 使 p( x ) 古 难 算 的 ，k( x 
X ) 却 会 是 一 个 天 于 x 非 线性 的 、 易 算 的 秃 数 。 举 个 无 限 维 空间 易 算 的 
核 的 例子 ， 我 们 构建 一 个 作用 于 非 负 整数 x 上 的 特征 映射 p(x)。 假 设 这 
个 映射 返回 一 个 由 开头 x 个 1， 随 后 是 无 限 个 0 的 问 量 。 我 们 可 以 写 一 个 
Re Bho, zt = min(z,zt0) ， 完 全 等 价 于 对 应 的 无 限 维 点 积 。 


最 利用 的 核 图 数 是 高 斯 核 (Gaussian kernel) ， 
k(u,v) =N (w — v;0,07T) (5.84) 


其 中 A (az pe, E) 是 标准 正 态 密度 。 这 个 核 也 被 称 为 径 向 基 函 数 

(radial basis function, RBF) 核 ， 因 为 其 值 治 v FA u [AMS ZZ Il 
减 小 。 融 斯 核对 应 于 无 限 维 空间 中 的 点 积 ， 但 是 该 空间 的 推导 没有 整数 
上 最 小 核 的 示例 那么 百 观 。 


我 们 可 以 认为 蜗 斯 核 在 执行 一 种 模板 匹配 (template matching) . VIZ 
标 窒 y 相 关 的 训练 样本 x 变 成 了 类 别 y 的 模板 。 当 测试 点 x/ 到 x 的 欧 几 
里 得 距离 很 小 ， 对 应 的 高 斯 核 啊 应 很 大 时 ， 表 明 x 和 模板 x 非常 相 
似 。 访 模型 进而 会 赋予 相对 应 的 训练 标签 y 较 大 的 权重 。 总 的 来 说 ， 预 
测 将 会 组 合 很 多 这 种 通过 训练 样本 相似 度 加 权 的 训练 标签 。 


LEFEL EME — FY DAE AIR AN IE. VE ARIRE 
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(kernel machine) 或 核 方 法 (kernel method) (Williams and 
Rasmussen, 1996; Schölkopf etal. , 1999) . 


PAA) Laer HS SE BRA 2 Th SER R BRI BLE ASG FU BRE AB EY H 3 2 
性 的 。 因 为 第 i 个 样本 贡献 ai k( x , x 9 BREA. FFEA 
过 学 习 主要 包含 零 的 同 量 gw ， 以 缓和 这 个 缺点 。 那 么 判断 新 样本 的 次 别 
仅 需 要 计算 非 零 ai 对 应 的 训练 样本 的 核 函数 。 这 些 训练 样本 被 称 为 支持 


HÆ (support vector) 。 


当 数 据 集 很 大 时 ， 核 机 器 的 计算 量 也 会 很 大 。 我 们 将 会 在 第 5.9 节 回顾 
这 个 想法 。 市 通用 核 的 核 机 需 致 力 于 汉化 得 更 好 。 我 们 将 在 第 5.11 贡 解 
释 原 因 。 现 代 深 度 学 习 的 设计 旨 在 克服 核 机 堪 的 这 些 限制 。 当 前 深度 学 
习 的 复兴 始 于 Hinton et al. (2006b) 表明 神经 网 络 能 够 在 MNIST 基 准 数 
据 上 胜 过 RBF 核 的 支持 问 量 机 。 


5.7.3 ”其 他 简单 的 监督 学 习 算 法 


HAN Ae fal BoP AA SER VE, BEB IEA. A, 
k- 最 近邻 是 一 类 可 用 于 分 类 或 回归 的 技术 。 作 为 一 个 非 参 数学 习 算 法 ， 
k- 最 近邻 并 不 局 限于 固定 数目 的 参数 。 我 们 通 征 认为 k- 最 近邻 算法 没有 
任何 参数 ， 而 是 使 用 训练 数据 的 简单 函数 。 事 实 上 ， 它 甚至 也 没有 一 个 
真正 的 训练 阶段 或 学 习 过 程 。 反 之 ， 在 测试 阶段 我 们 布 望 在 新 的 测试 输 
入 x 上 产生 y， 我 们 需要 在 训练 数据 钱 上 找到 x 的 k- 最 近邻 。 然 后 返回 
训练 集 上 对 应 的 y 值 的 平均 值 。 这 几乎 适用 于 任何 类 型 可 以 确定 y 值 平均 
值 的 监督 学 习 。 在 分 类 情况 中 ， 我 们 可 以 天 于 one-hot 编 公 问 量 c 求 于 
IY, 其 中 cy =1, 其 他 的 i 值 取 c | =(). 然后 ， 我 们 可 以 解释 这 些 one-hot 编 
码 的 均值 为 类 列 的 概率 分 布 。 作 为 一 个 非 参 数学 习 算 法 ，k- 近 邻 能 达到 
非常 蜗 的 容量 。 例 如 ， 假 设 我 们 有 一 个 用 0-1 误 牵 度 量 性 能 的 多 分 类 任 
务 。 在 此 设 定 中 ， 妆 训练 样本 数目 趋同 于 无 穷 大 时 ，1- 最 近邻 收 合 到 两 
倍 贝 叶 斯 误 莽 。 超 出 贝 叶 斯 误 兰 的 原因 是 它 会 随机 从 等 距离 的 剧 近 点 中 
随机 挑 一 个 。 而 存在 无 限 的 训练 数据 时 ， 所 有 测试 点 x 周围 距离 为 零 的 
邻近 点 有 无 限 多 个 。 如 末 我 们 使 用 所 有 这 些 临 近 点 投票 的 次 宋 方 式 ， 而 
个 是 随机 挑选 一 个 ， 那 么 该 过 程 将 会 收敛 到 贝 叶 期 错误 率 。K- 最 近邻 的 


高 容量 使 其 在 训练 样本 数目 大 时 能 够 获取 较 高 的 精度 。 然 而 ， 它 的 计算 
成 本 很 高 ， 另 外 在 训练 集 较 小 时 泛 化 能 力 很 差 。lc 最 近邻 的 一 个 弱点 是 
它 不 能 学 习 出 哪 一 个 特征 比 其 他 更 具 识别 力 。 例 如 ， 假 设 我 们 要 处 理 一 
个 回归 任务 ， 其 中 jp。 c R100 是 从 各 向 同性 的 高 斯 分 布 中 抽取 的 ， 但 
是 只 有 一 个 变量 x ;和 结果 相关 。 进 一 步 假 设 该 特征 直接 决定 了 输出 ， 
即 在 所 有 情况 中 y=x ，。 最 近邻 回归 不 能 检测 到 这 个 简单 模式 。 大 多 数 
点 x 的 最 近邻 将 取决 于 x > 到 x io0 的 大 多 数 特征 ， 而 不 是 单独 取决 于 特 
征 x1。 因 此 ， 小 训练 集 上 的 输出 将 会 非常 随机 


RRA (decision tree) 及 其 变种 是 为 一 类 将 输入 空间 分 成 不 同 的 区 
域 ， 每 个 区 域 有 独立 参数 的 算法 (Breiman et al. , 1984) 。 如 图 5.7 所 
示 ， 快 朱 树 的 每 个 节点 都 与 输入 空间 的 一 个 区 域 相关 联 ， 并 且 内 部 节点 
痰 续 将 区 域 分 成 子 节 点 下 的 子 区 域 (通常 使 用 坐标 轴 拆 分 区 域 )。 空 间 
由 此 细 分 成 不 重 登 的 区 域 ， 叶 和 点 和 输入 区 域 之 间 形 成 一 一 对 应 的 天 
系 。 每 个 时 结 上 点 将 其 输入 区 域 的 每 个 点 映射 到 相同 的 输出 。 雇 条 树 通 锦 
有 特定 的 训练 算法 ， 超 出 了 本 书 的 范围 。 如 果 人 允许 学 习 任 意 大 小 的 决 谊 
树 ， 那 么 它 可 以 被 视 作 非 参数 算法 。 然 而 实践 中 通 稼 有 大 小 限制 ， 作 为 
正则 化 将 其 转变 成 有 参 模型 。 由 于 决策 树 通 蝇 使 用 坐标 轴 相 关 的 拆 分 ， 
并 且 每 个 子 节 点 关联 到 第 数 输出 ， 因 此 有 时 解决 一 些 对 于 逻辑 回归 很 简 
单 的 问题 很 费力 。 例 如 ， 假 设 有 一 个 二 分 闫 问题 ， 当 X , >x] 时 分 为 正 
K, WU RAT EN ad FES EAB i PET STN BE, ROR REEVE SO A 
VOIR TIGL, AA Pa A $F VE RS PT SR E BE RP IE AR 
PRI AX 





图 5.7 ”描述 一 个 决策 树 如 何 工作 的 示意 图 。 CE) 树 中 每 个 节点 都 选择 将 输入 样本 送 到 左 子 节 
点 (0) 或 者 右 子 节点 (1) 。 内 部 的 节点 用 圆圈 表示 ， 叶 节点 用 方块 表示 。 每 一 个 节点 可 以 用 
一 个 二 值 的 字符 串 识 别 并 对 应 树 中 的 位 置 ， 这 个 字符 串 是 通过 给 起 父亲 节点 的 字符 串 添 加 一 个 
位 元 来 实现 的 (0 表示 选择 左 或 者 上 ，1 表 示 选 择 右 或 者 下 ) 。 (下 ) 这 个 树 将 空间 分 为 区 域 。 

这 个 二 维 平面 说 明 决 策 树 可 以 分 割 RA 。 这 个 平面 中 画 出 了 树 的 节点 ， 每 个 内 部 点 穿 过 分 割 线 
并 用 来 给 样本 分 类 ， 叶 节点 画 在 样本 所 属 区 域 的 中 心 。 结 果 是 一 个 分 块 常数 函数 ， 每 一 个 时 节 
点 一 个 区 域 。 每 个 叶 需 要 至 少 一 个 训练 样本 来 定义 ， 所 以 决策 树 不 可 能 用 来 学 习 一 个 局 部 极 大 
值 比 训练 样本 数量 还 多 的 函数 


正如 我 们 已 经 看 到 的 ， 最 近邻 预测 和 庄 案 树 都 有 很 多 的 局 限 性 。 尽 管 如 














此 ， 在 计算 资源 受 限 制 时 ， 它 们 都 是 很 有 用 的 学 习 算 法 。 通 过 思考 复杂 
算法 和 k- 最 近邻 或 决 朱 树 之 间 的 相似 性 和 到 寞 ， 我 们 可 以 建 并 对 更 复 末 
学 习 算 法 的 直觉 。 


读者 可 以 参考 Murphy (2012) ; Bishop (2006) ; Hastie etal. (2001) 
或 其 他 机 器 学 习 教 科 书 了 解 更 多 的 传统 监督 学 习 算法 。 
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监督 者 提供 的 信和 是 特征 还 是 目标 。 通 俗 地 说 ， 无 监督 学 习 的 大 多 数 符 试 
征 指 从 不 需要 人 为 注释 的 样本 的 分 布 中 抽取 信息 。 该 术语 通 利 与 密度 售 
计 相 关 ， 学 习 从 分 布 中 米 样 、 和 学习 从 分 布 中 去 噪 、 寻 找 数 据 分 布 的 流 形 
或 是 将 数据 中 相关 的 样本 聚 类 。 


一 个 经 典 的 无 监督 学 习 任 务 是 找到 数据 的 “最 佳 " 表 示 。“ 最 佳 ” 可 以 是 不 
同 的 表示 ， 但 是 一 般 来 说， 是 指 该 表示 在 比 本 里 表示 的 信息 更 人 简单 或 更 
易 访 问 而 受到 一 些 惩 避 或 限制 的 情况 下 ， 尽 可 能 地 保存 关于 x 更 多 的 信 
FA 
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和 独立 表示 。 低 维 表示 壬 试 将 x 中 的 信息 尽 可 能 压缩 在 一 个 较 小 的 表示 
中 。 黎 芷 表示 将 数据 集 租 入 到 得 入 项 大 多 数 为 零 的 表示 中 (Barlow, 
1989; Olshausen and Field, 1996; Hinton and Ghahramani, 1997) . #fi 
BAe AN IES AS H Pg AN EA TL, TET AED Ot AS NAS 
丢失 很 多 信息 。 这 会 使 得 表示 的 整体 结构 倾 同 于 将 数据 分 布 在 表示 空间 
的 坐标 轴 上 。 独 并 表示 试图 分 开 数 据 分 布 中 变化 的 来 源 ， 使 得 表示 的 维 
FE re Set AA o 


当然 ， 这 3 个 标准 并 非 相互 排斥 的 。 低 维 表示 通常 会 产生 比 原 始 的 高 维 
数据 具有 较 少 或 较 弱 依赖 天 系 的 元 素 。 这 征 因 为 减少 表示 大 小 的 一 种 方 
式 古 找到 并 消除 见 余 。 识 别 并 去 除 更 多 的 风 余 使 得 降 维 算法 在 丢失 更 少 
信息 的 同时 显现 更 大 的 压缩 。 


表示 的 概念 是 深度 学 习 核心 主题 之 一 ， 因 此 也 是 本 书 的 核心 主题 之 一 。 


本 节 会 介绍 表示 学 习 算法 中 的 一 些 简单 示例 。 总 的 来 说 ， 这 些 示例 算法 
会 说 明 如 何 实施 上 面 的 3 个 标准 。 剩 余 的 大 部 分 章节 会 介绍 额外 的 表示 
学 习 算法 ， 它 们 以 不 同方 式 处 理 这 3 个 标准 或 是 引入 其 他 标准 。 


5.8.1 ” 主 成 分 分 析 


在 第 2.12 节 中 ， 我 们 看 到 PCA 算 法 近 供 了 一 种 压缩 数据 的 方式 。 我 们 也 
可 以 将 PCA 视 为 学 习 数 据 表示 的 无 监督 学 习 算法 。 这 种 表示 基于 上 述 人 
蛙 表 示 的 两 个 标准 。PCA 学 习 一 种 比 原始 输入 维 数 更 低 的 表示 。 它 也 学 
习 了 一 种 元 系 之 间 彼 此 没有 线性 相关 的 表示 。 这 是 学 习 表示 中 元 系统 计 
独立 标准 的 第 一 步 。 要 实现 完全 独立 性 ， 表 示 学 习 算 法 也 必须 去 挥 变 量 
间 的 非 线性 关系 。 


如 图 5.8 所 示 ，PCA 将 输入 x 投影 表示 成 z ， 学 习 数 据 的 正 交 线性 变换 。 
在 第 2.12 节 中 ， 我 们 看 到 了 如 何 学 习 重 建 原始 数据 的 最 住 一 维 表 示 〔 磺 
均 方 误差 而 言 ) ， 这 种 表示 其 实 对 应 着 数 据 的 第 一 个 主要 成 分 。 因 此 ， 
我 们 可 以 用 PCA 作 为 保留 数据 尽 可 能 多 信息 的 降 维 方法 (再 次 就 最 小 重 
构 误 差 平 方 而 言 ) 。 在 下 文中 ， 我 们 将 研究 PCA 表 示 如 何 使 原始 数据 表 
示 关 去 相关 的 。 
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图 5.8 ”PCA 学 习 一 种 线性 投影 ， 使 最 大 方差 的 方向 和 新 空间 的 轴 对 齐 。 〈 左 ) 原始 数据 包含 了 
x 的 样本 。 在 这 个 空间 中 ， 方 差 的 方向 与 轴 的 方向 并 不 是 对 齐 的 。 CO) 变换 过 的 数据 
z — g W 在 轴 z1 的 方向 上 有 最 大 的 变化 。 第 二 大 变化 方差 的 方向 沿 着 轴 z 2 


假设 有 一 个 mxn 的 设计 矩阵 X ， 数 据 的 均值 为 零 ， 区 [Zz ] = 0. #4 
如 此 ， 通 过 预 处 理 步 又 使 所 有 样本 减 去 均值 ， 数 据 可 以 很 容易 地 中 心 








化 。 
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1 
Var|z | = 一 一 小 x (5.85) 


PCA 通 过 线性 变换 找到 一 个 Var Lz | FEY FA AE PEAY AAR 一 = wie 


在 第 2.12 节 ， 我 们 已 知 设计 和 矩阵 X MER YY | Y 的 特征 向 量 给 
定 。 从 这 个 角度 ， 我 们 有 

X X= WAW' (5.86) 
本 方 中 ， 我 们 会 探索 主 成 分 的 男 一 种 推导 。 主 成 分 也 可 以 通过 奇异 值 分 


解 (SVD) 得 到 。 具 体 来 说 ， 它 们 是 处 的 右 奇异 向 量 。 为 了 说 明 这 点 ， 
假设 W 是 奇异 舍 分 解 完 — USW 的 右 奇异 向 量 。 以 W 作为 特 


征 向 量 基 ， 我 们 可 以 得 到 原来 的 特征 向 量 方程 : 
x’ x = (US wr) UXW = WW (5.87) 


SVD 有 助 于 说 明 PCA 后 的 Var | z 」 是 对 角 的 。 使 用 X 的 SVD 分 解 ， X 
的 方 天 可 以 表示 为 





| 
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m — (UW ) UXW (5.89) 
Tik — 
oya. i WE'U'UXW' (5.90) 
PY = 
1 
= w>?w' (5.91) 





m — | 


HH, SMEG | U 一 三， 因为 根据 奇异 值 的 定义 矩阵 U 是 正 交 
的 。 这 表明 z 的 协 方差 满足 对 角 的 要 求 : 








1 
= wx x W (5.93) 
m — 1 
1 | 
= 7h Www Ww (5.94) 
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其 中 ， 再 次 使 用 SVD 的 定义 有 TirT W — T. 


以 上 分 析 指 明 当 我 们 通过 线性 变换 W 将 数据 x 投影 到 z 时 ， 得 到 的 数 
据 表 示 的 协 方差 矩阵 是 对 角 的 《〈 即 2 “ ) ， 立 刻 可 得 z 中 的 元 素 是 彼此 
无 关 的 。 


PCA 这 种 将 数据 变换 为 元 系 之 间 彼 此 不 相关 表示 的 能 力 古 PCA 的 一 个 重 
要 性 质 。 它 是 消除 数据 中 未 知 变 化 因 系 的 人 简 里 表示 示例 。 在 PCA 中 ， 这 
个 消除 是 通过 寻找 和 输入 空间 的 一 个 旋转 《由 W 确定 〉， 使 得 方 天 有 的 主 
坐标 和 z 相关 的 新 表示 空间 的 基 对 齐 。 


虽然 相关 性 是 数据 元 隶 间 依赖 天 系 的 一 个 重要 范畴 ， 但 我 们 对 于 能 够 消 
除 更 复 末 形式 的 特征 依赖 的 表示 学 习 也 很 感 兴趣 。 对 此 ， 我 们 需要 比 人 
单线 性 变换 更 强 的 工具 。 


5.8.2 ”上 -均值 聚 类 


另外 一 个 简单 的 表示 学 习 算 法 是 k- 均 值 聚 类 。k- 均 值 聚 类 算法 将 训练 集 
分 成 k 个 靠近 彼此 的 不 同样 本 聚 类 。 因 此 我 们 可 以 认为 该 算法 提供 了 k- 
维 的 one-hot 编 码 问 量 h 以 表示 输入 x 。 当 x 属于 聚 类 i 时 ， 有 h ; =1，h 的 
其 他 项 为 零 。 


k- 均 值 聚 类 提供 的 one-hot 编 但 也 是 一 种 稀 芯 表示 ， 因 为 每 个 输入 的 表示 
中 大 部 分 元 系 为 和 零 。 之 后 ， 我 们 会 介绍 能 够 学 习 更 灵活 的 稀 下 表示 有 的 一 
些 其 他 算法 (表示 中 每 个 输入 x 不 只 一 个 非 零 项 ) 。one-hot 编 码 是 稀 焉 
表示 的 一 个 极 问 示例 ， 于 失 了 很 多 分 布 式 表示 的 优点 。one-hot 编 码 仍然 
有 一 些 统计 优点 〈 目 然 地 传达 了 相同 肾 类 中 的 样本 彼此 相似 的 观点 )， 
也 具有 计算 上 的 优势 ， 因 为 整个 表示 可 以 用 一 个 单独 的 整数 表示 。 


k- 均 值 聚 类 初始 化 k 个 不 同 的 中 心 点 全 由).…ph }, RERA AA 
同 的 步 又 直到 收 钱 。 步 又 一 ， 每 个 训练 样本 分 配 到 最 近 的 中 心 点 Rp 所 
代表 的 聚 类 i。 步 又 二 ， 每 一 个 中 心 点 p 更 新 为 肾 类 i 中 所 有 训练 样本 x 
的 均值 。 


关于 聚 类 的 一 个 问题 是 ， 聚 类 问题 本 身 是 病态 的 。 这 是 说 没有 单一 的 标 
准 去 度量 聚 类 的 数据 在 真实 世界 中 效果 如 何 。 我 们 可 以 度量 聚 类 的 性 

质 ， 例 如 关中 元 系 到 类 中 心 点 的 欧 几 里 得 距离 的 均值 。 这 使 我 们 可 以 判 
汤 从 聚 类 分 配 中 重建 训练 数据 的 效果 如 何 。 然 而 我 们 不 知道 聚 类 的 性 质 
是 否 很 好 地 对 应 到 真实 世界 的 性 质 。 此 外 ， 可 能 有 许多 不 同 的 聚 类 都 能 
很 好 地 对 应 到 现实 世界 的 某 些 属性 。 我 们 可 能 希望 找到 和 一 个 特征 相关 
的 聚 类 ， 但 是 得 到 了 一 个 和 任务 无 关 的 ， 同 样 是 合理 的 不 同 聚 类 。 例 

如 ， 假 设 我 们 在 包含 红色 卡车 图 片 、 红 色 汽 车 图 片 、 灰 色 卡 车 图 片 和 灰 
色 汽 车 图 片 的 数据 集 上 运行 两 个 肾 类 算法 。 如 末 每 个 聚 类 算法 聚 两 类 ， 
那么 可 能 一 个 算法 将 汽车 和 卡车 各 聚 一 关 ， 另 一 个 根据 红色 和 灰色 各 聚 
一 类 。 假 设 我 们 还 运行 了 第 3 个 肾 类 算法 ， 用 来 决定 类 别 的 数目 。 这 有 
可 能 聚 成 了 4 类 ， 红 色 卡 车 、 红 色 汽 车 、 灰 色 卡 车 和 灰色 汽车 。 现 在 这 
个 新 的 聚 类 至 少 抓 住 了 属性 的 信息 ， 但 是 丢失 了 相似 性 信息 。 红 色 汽 车 
和 灰色 汽车 在 不 同 的 类 中 ， 正 如 红色 汽车 和 灰色 卡车 也 在 不 同 的 类 中 。 
该 聚 类 算法 没有 告诉 我 们 灰色 汽车 和 红色 汽车 的 相似 度 比 灰色 卡车 和 红 
色 汽 车 的 相似 度 更 高 。 我 们 只 知道 它们 是 不 同 的 。 


这 些 问题 襄 明了 一 些 我 们 可 能 更 偏好 于 分 布 式 表示 “相对 于 one-hot 表 未 
而 言 ) 的 原因 。 分 布 式 表示 可 以 对 每 个 车 辆 赋予 两 个 属性 一 一 一 个 表示 
TENA, “MRA CEE FE. AHAB EIT eR 
分 布 式 表示 《学 习 算 法 如 何 知 道 我 们 关心 的 两 个 属性 是 其 色 和 是 售 汽 车 
或 卡车 ， 而 不 是 制造 商 和 车 龄 7 ) ， 但 是 多 个 属性 减少 了 算法 去 狂 我 们 
天 心 哪 一 个 属性 的 负担 ， 人 允许 我 们 通过 比较 很 多 属性 而 非 测 试 一 个 单一 
属性 来 细 粒 度 地 上 度量 相似 性 。 


5.9 PEDLER PPE 
几乎 所 有 的 深度 学 习 算法 都 用 到 了 一 个 非常 重要 的 算法 ; 随机 梯度 下 降 


(stochastic gradi-ent descent, SGD) 。 随 机 梯度 下 降 是 第 4.3 节 介绍 的 
榜 上 度 下 降 算 法 的 一 个 扩展 。 





机 天 学 习 中 反复 出 现 的 一 个 问题 是 好 的 泛 化 需要 大 的 训练 集 ， 但 大 的 训 
练 集 的 计算 代价 也 更 大 。 


机 幽 学 习 算 法 中 的 代价 函数 通 旬 可 以 分 解 成 每 个 样本 的 代价 函数 的 总 
和 和。 例如， 训练 数据 的 负 条 件 对 数 似 然 可 以 写成 


1 m | 
J(0) = Ex ynpana LT,Y,0) = — X L(y, 8) (5.96) 
A 


HPLESSEANIGARD (a, y,@A) = — log p(y | x: @)- 
对 于 这 些 相 加 的 代价 函数 ， 梯 度 下 降 需 要 计算 

VeJ(@) = LS VoL (a, y,6) (5.97) 
这 个 运算 的 计算 代价 是 O(m)。 随 着 训练 集 规模 增长 为 数 十 亿 的 样本 ， 计 
算 一 步 梯 度 也 会 消耗 相当 长 的 时 间 。 
随机 梯度 下 降 的 核心 是 ， 梯 度 是 期 望 。 期 望 可 使 用 小 规模 的 样本 近似 估 
计 。 具 体 而 言 ， 在 算法 的 每 一 步 ， 我 们 从 训练 集中 均匀 抽出 一 小 批量 
(minibatch)〉 样 本 BB = fa)... , Tm))} 。 小 批量 的 数目 m' 退 第 是 
一 个 相对 较 小 的 数 ， 从 一 到 几 百 。 重 要 的 是 ， 当 训练 集 大 小 m 增 长 时 ， 
m' 通 常 是 固定 的 。 我 们 可 能 在 拟 合 几 十 亿 的 样本 时 ， 每 次 更 新 计算 只 用 
到 几 百 个 样本 。 
梯度 的 估计 可 以 表示 成 


] m’ | | 
ae. (i) ,,(%) j 
g = T ey 0) (5.98) 


使 用 来 自 小 批量 B 的 样本 。 然 后 ， 随 机 梯度 下 降 算法 使 用 如 下 的 梯度 下 
降 估计 ， 


0 一 0 一 6 上 9 (5.99) 


其 中 ， € Fe Ff SJB, 
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部 分 中 的 训练 时 效 来 不 错 。 优 化 算法 不 一 定 能 你 证 在 合理 的 时 间 内 达到 
ae ee ee eee Pi 
征 有 用 的 。 


随机 梯度 下 降 在 深度 学 习 之 外 有 很 多 重要 的 应 用 。 它 是 在 大 规模 数据 上 
训练 大 型 线性 模型 的 主要 方法 。 对 于 固定 大 小 的 醒 型 ， 每 一 步 随机 梯度 
下 降 更 新 的 计算 量 不 取决 于 训练 集 的 大 小 m。 在 实践 中 ， 当 训练 集 大 小 
增长 时 ， 我 们 通 第 会 使 用 一 个 更 大 的 模型 ， 但 这 并 非 是 必需 的 。 达 到 收 
SAT ri HY TK BO E oe VI RSE RS ATS. PATA, | Sami fe] F 
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前 收敛 到 可 能 的 最 优 测 试 误差 。 继 续 增 加 m 不 会 延长 达到 模型 可 能 的 最 
优 测 试 误 大 的 时 间 。 从 这 后 来 看 ， 我 们 可 以 认为 用 SGD 训 练 模型 的 渐 近 
代价 是 关于 m 的 函数 的 O(1) 级 列 。 

在 深度 学 习 兴 起 之 前 ， 学 习 非 线性 模型 的 主要 方法 是 结合 核 技巧 的 线性 
模型 。 很 多 核 学 习 算法 需要 构建 一 个 nxm 的 矩阵 C5; ; = h(a”, 2?) 
。 构 建 这 个 矩阵 的 计算 量 是 O(m“ )。 当 数据 集 是 几 十 亿 个 样本 时 ， 这 个 
计算 量 是 不 能 接受 的 。 在 学 术 界 ， 深 度 学习 从 2006 年 开始 收 到 关注 的 原 
因 是 ， 在 数 以 万 计 样 本 的 中 等 规模 数据 集 上 ， 深 度 学 习 在 痢 样 本 上 比 当 
时 很 多 热门 算法 汉化 得 更 好 。 不 久 后 ， 深 度 学 习 在 工业 界 受 到 了 更 多 的 
关注 ， 因 为 其 提供 了 一 种 训练 大 数据 集 上 的 非 线 性 模型 的 可 扩展 方式 。 


我 们 将 会 在 第 8 半 继 续 探 讨 随 机 梯度 下 降 及 其 很 多 改进 方法 。 
5.10 WELSH SY BIE 


几乎 所 有 的 深度 学 习 算 法 都 可 以 衫 描述 为 一 个 相当 简单 的 配方 : 特定 的 
数据 集 、 代 价 函数 、 优 化 过 程 和 模型 。 


例如 ， 线 性 回归 算法 由 以 下 部 分 组 成 : X 和 y 构成 的 数据 集 ， 代 价 函 数 
Fu = -Epin Of Pmoaaly | #) (5.100) 


模型 是 pjodel (VY | g) = N (y: Tw F b. 1) ， 在 大 多 数 情况 下 ， 


TEMG SIZ, AY DAE SCA AC ARAN DT BB OE BEANS I IE LT FEE < 
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同 的 算法 。 


退 间 代 价 疯 数 至少 含有 一 项 使 学 习 过 程 进行 统计 估计 的 成 分 。 最 常见 的 
代价 函数 是 负 对 数 似 然 ， 最 小 化 代价 函数 导 公 的 最 大 似 然 佑 计 。 


代价 函数 也 可 能 人 台 有 附加 项 ， 如 正则 化 。 例 如 ， 我 们 可 以 将 权重 桶 减 加 
到 线性 回归 的 代价 函数 中 


J(w, b) =A lwll z | iE lof Pimnodel (¥ | T) (5.101) 
该 优化 仍然 有 闭 解 。 


如 果 我 们 将 该 模型 变 成 非 线 性 的 ， 那 么 大 多 数 代 价 函 数 不 表 能 通过 团 解 
优化 。 这 束 要 求 我 们 选择 一 个 达 代 数值 优化 过 程 ， 如 柳 度 下 降 等 。 


组 合 模型 、 代 价 和 优化 算法 来 构建 学 习 算 法 的 配方 同时 适用 于 监督 学 习 
和 无 监督 和 学习。 线性 回归 示例 说 明了 如 何 适 用 于 监督 学 习 的 。 无 监督 学 
习 时 ， 我 们 需要 定义 一 个 只 包含 和 的 数据 集 、 一 个 合适 的 无 监督 代价 和 
一 个 模型 。 例 如 ， 通 过 指定 如 下 损失 函数 可 以 得 到 PCA 的 第 一 个 主 同 量 


J(w) = 下 pz — r(x; w)? (5.102) 
EA rE A IY PAB (ae) = w xw. FE w 有 范 数 为 1 的 限制 。 


在 东 坚 情况 下 ， 由 于 计算 原因 ， 我 们 不 能 实际 计算 代价 函数 。 在 这 种 情 
况 下 ， 只 要 有 近似 其 标 度 的 方法 ， 那 么 我 们 仍然 可 以 使 用 达 代 数值 优化 
近似 最 小 化 目标 。 


尺 官 有 时 候 不 明显 ， 但 大 多 数学 习 算 法 部 用 到 了 上 述 配 方 。 如 末 一 个 机 
骼 学 习 算法 看 上 去 特别 独特 或 是 手动 设计 的 ， 那 么 通 钊 需要 使 用 特殊 的 
优化 方法 进行 求解 。 有 些 模型 ， 如 决 朱 树 或 k- 均 值 ， 需 要 特殊 的 优化 ， 
因为 它们 的 代价 函数 有 平坦 的 区 域 ， 使 其 不 适合 通过 基于 梯度 的 优化 去 
最 小 化 。 在 认识 到 大 部 分 机 天 学 习 算 法 可 以 使 用 上 述 配方 掏 述 之 后 ， 我 
们 可 以 将 不 同 算法 视 为 出 于 相同 原因 解决 相关 问题 的 一 类 方法 ， 而 不 是 
一 长 串 各 个 人 不同 的 算法 。 


5.11 促使 深度 学 习 发 展 的 挑战 


本 章 拍 述 的 简单 机 天 学 习 算 法 和 在 很 多 不 同 的 重要 问题 上 效 示 都 尽 好 ， 但 
是 它们 不 能 成 功 解 决 人 工 入 能 中 的 核心 问题 ， 如 语 首 识 别 或 者 对 象 识 
Fill o 
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题 。 


5.11.1 维 数 灾难 


当 数 据 的 维 数 很 高 时 ， 很 多 机 器 学 习 问 题 变 得 相当 困难 。 这 种 现象 被 称 
为 维 数 灾难 (curse of dimensionality) 。 特 别 值 得 注意 的 古 ， 一 组 变量 
不 同 的 可 能 配置 数量 会 随 看 变量 数目 的 增加 而 指数 级 增长 。 


维 数 灾难 友 生 在 计算 机 科学 的 许多 地 方 ， 在 机 带 学 习 中 尤其 如 此 。 


由 维 数 灾 难 市 来 的 一 个 挑战 是 统计 挑战 。 如 图 5.9 所 示 ， 统 计 挑 战 产 生 
F x 的 可 能 配置 数目 远大 于 训练 样本 的 数目 。 为 了 充分 理解 这 个 问题 ， 
我 们 假设 输入 空间 如 图 所 示人 被 分 成 网 格 。 低 维 时 ， 我 们 可 以 用 由 数据 占 
据 的 少量 网 格 去 手 述 这 个 空间 。 泛 化 到 新 数据 点 时 ， 通 过 检测 和 新 输入 
在 相同 网 格 中 的 训练 样本 ， 我 们 可 以 判断 如 何 处 理 新 数据 点 。 例 如 ， 如 
REA AGRA x 处 的 概率 密度 ， 我 们 可 以 返回 x 处 单位 体积 内 训练 样本 
的 数目 除 以 训练 样本 的 总 数 。 如 琳 希 望 对 一 个 样本 进行 分 关 ， 我 们 可 以 
返回 相同 网 格 中 训练 样本 最 多 的 闫 别 。 如 末 征 做 回归 分 析 ， 我 们 可 以 平 
均 该 网 格 中 样本 对 应 的 的 目标 值 。 但 是 ， 如 采访 网 格 中 没有 样本 ， 该 怎 
AIE? 因为 在 高 维 空间 中 参数 配置 数目 远大 于 样本 数目 ， 大 部 分 配置 
没有 相关 的 样本 。 我 们 如 何 能 在 这 些 新 配置 中 找到 一 些 有 意义 的 东西 
Ne? 许多 传统 机 硕 学 习 算 法 只 是 简 单 地 假 变 在 一 个 新 点 的 输出 应 大 致 和 
最 接近 的 训练 点 的 输出 相同 。 





2a, 
人 a 
图 5.9” 当 数据 的 相关 维度 增 大 时 (从 左 向 右 ， ， 我 们 感 兴趣 的 配置 数目 会 随 之 指数 级 增长 。 
(FE) 在 这 个 一 维 的 例子 中 ， 我 们 用 一 个 变量 来 区 分 所 感 兴趣 的 仅仅 10 个 区 域 。 当 每 个 区 域 都 
有 足够 的 样本 数 时 (图 中 每 个 样本 对 应 了 一 个 细胞 ) ， 学 习 算 法 能 够 轻易 地 泛 化 得 很 好 。 泛 化 
的 一 个 直接 方法 是 估计 目标 函数 在 每 个 区 域 的 值 (可 能 是 在 相 邻 区 域 之 间 插 值 ) 。 CP) 在 二 
维 情况 下 ， 对 每 个 变量 区 分 10 个 不 同 的 值 更 加 困难 。 我 们 需要 妃 踪 10x10=100 个 区 域 ， 至 少 需 


要 很 多 样本 来 覆盖 所 有 的 区 域 。 ( 右 ) 三 维 情况 下 ， 区 域 数量 增加 到 了 10 3 =1000， 至 少 需要 那 
入 多 的 样本 。 对 于 需要 区 分 的 d 维 以 及 v 个 值 来 说 ， 我 们 需要 O(v d) 个 区 域 和 样本 。 这 就 是 维 数 
灾难 的 一 个 示例 。 感 谢 由 Nicolas Chapados 提 供 的 图 片 


5.11.2 ”局 部 不 变性 和 平 背 正则 化 


为 了 更 好 地 泛 化 ， 机 右 学 习 算 法 二 要 由 先 验 信和 候 引 叶 应 该 学 习 什 么 类 型 
的 函数 。 此 前 ， 我 们 已 经 看 到 过 由 模型 参数 的 概率 分 布 形 成 的 先 验 。 通 
俗 地 讲 ， 我 们 也 可 以 说 先 验 信念 耳 接 影响 函数 本 里 ， 而 仅仅 明 过 它们 对 
疯 数 的 影响 来 间接 改变 参数 。 此 外 ， 我 们 还 能 通俗 地 说 ， 先 验 信念 还 间 
接地 体现 在 选择 一 些 偏 好 作 类 函数 的 算法 ， 尺 官 这 些 偏 好 并 没有 退 过 我 
们 对 不 同 函 数 置 信 程度 的 概率 分 布 表 现 出 来 (也 诗 根 本 没 法 表现 ) 。 


其 中 使 用 最 广泛 的 隐 式 “ 先 验 ”是 平 消 先 验 (smoothness prior) ， 或 局 部 
不 变性 先 验 (local constancy prior) 。 这 个 先 验 表明 我 们 学 习 的 函数 不 
应 在 小 区 域内 有 发生 很 大 的 变化 。 


许多 简单 算法 完全 依赖 于 此 移 验 达到 民 好 的 沁 化 ， 其 结 朱 是 不 能 推广 去 
RA TS BERATED FATT EG KPR, BRAT IP ATR RE Hd U 
Ha ABR CEARRA FES PAIRS REA PAIZO Eo X 
E, RIER JTA REPT FE Sat AN XE A I IK EF o 


有 许多 不 同 的 方法 来 显 式 或 隐 式 地 表示 学 习 函数 应 该 具有 光滑 或 局 部 不 
变 的 先 验 。 所 有 这 些 不 同 的 方法 都 则 在 鼓励 学 习 过 程 能 够 学 习 出 函数 f * 
对 于 大 多 数 设置 x 和 小 变动 万 ， 都 满足 条 件 








fe) = F (e4) (5.103) 


换言之 ， 如 来 我 们 知道 对 应 输入 x WER A, x 是 个 有 标签 的 训练 
样本 ) ， 那 么 该 答案 对 于 x 的 邻 域 应 该 也 适用 。 如 果 在 有 些 邻 域 中 我 们 
有 几 个 好 答案 ， 那 么 我 们 可 以 组 合 它 们 《通过 东 种 形 陈 的 平均 或 插值 
法 ) 以 产生 一 个 尽 可 能 和 大 多 数 输入 一 致 的 答案 。 


局 部 不 变 方 法 的 一 个 极端 例子 是 k- 最 近邻 系列 的 学 习 算 法 。 当 一 个 区 域 
里 的 所 有 后 x 在 训练 集中 的 k 个 最 近邻 古 一 样 的 ， 那 么 对 这 些 后 的 预测 
也 是 一 样 的 。 当 k=1 时 ， 不 同 区 域 的 数目 不 会 比 训练 样本 还 多 。 


虽然 k- 最 近邻 算法 复制 了 附近 训练 样本 的 输出 ， 大 部 分 核 机 人 虱 也 是 在 和 
附近 训练 样本 相关 的 训练 集 输出 上 插值 。 一 类 午 要 的 核 函 数 是 局 部 核 
(local kernel) ， 其 核子 数 k( u，v ) 在 uzv 时 很 大 ， 当 u 和 v 距 离 拉 大 
时 而 减 小 。 局 部 核 可 以 看 作 执 行 模 板 匹 配 的 相似 函数 ， 用 于 度量 测试 梓 
本 x 和 每 个 训练 样本 x 有 多 么 相似 。 近 年 来 深度 学 习 的 很 多 推动 力 源 
目 研 究 局 部 模板 匹配 的 局 限 性 ， 以 及 深度 和 学习 如 何 元 服 这 些 局 限 性 
(Bengio etal. , 2006a) 。 


决策 树 也 有 平 光 学 习 的 局 限 性 ， 因 为 它 将 输入 空间 分 成 和 叶 节 乓 一样 多 
的 区 间 ， 并 在 每 个 区 间 使 用 单独 的 参数 (或 者 有 些 决 傈 树 的 拓展 有 多 个 
BBO) 。 如 果 目 标 函 数 需 要 人 至少 拥 有 n 个 叶 市 点 的 树 才 能 精确 表示 ， 那 
么 至 少 需要 n 个 训练 样本 去 拟 合 。 需 要 儿 借 于 n 的 样本 去 达到 预 训 和 输出 上 
的 茶 种 统计 置信 度 。 


总 的 来 说， 区 分 输入 空间 中 OK) 个 区 间 ， 所 有 的 这 些 方法 需要 O(k) 个 样 
本 。 通 常会 有 O(k) 个 参数 ，O(1) 参 数 对 应 于 O(k) 区 间 之 一 。 最 近邻 算法 
中 ， 每 个 训练 样本 至 多 用 于 定义 一 个 区 则 ， 如 图 5.10 所 示 。 


图 5.10 ”最 近邻 算法 如 何 划 分 输入 空间 的 示例 。 每 个 区 域内 的 一 个 样本 〈 这 里 用 圆圈 表示 ) E 
义 了 区 域 边界 (这 里 用 线 表 示 〉 。 每 个 样本 相关 的 y 值 定义 了 对 应 区 域内 所 有 数据 点 的 输出 。 由 
最 近邻 定义 并 且 匹 配 几 何 模 式 的 区 域 被 称 为 Voronoi 图 。 这 些 连续 区 域 的 数量 不 会 比 训练 样本 的 
数量 增加 得 更 快 。 尽 管 此 图 具体 说 明了 最 近邻 算法 的 效果 ， 其 他 的 单纯 依赖 局 部 光滑 先 验 的 机 
算法 也 表现 出 了 类 似 的 泛 化 能 力 : 每 个 训练 样本 仅仅 能 告诉 学 习 者 如 何在 其 周围 的 相 邻 
区 域 泛 化 


有 没有 什么 方法 能 表示 区 间 数 目 比 训练 样本 数目 还 多 的 复 淋 函数 ? 显 

然 ， 只 是 假设 函数 的 平 消 性 不 能 做 到 这 操 。 例 如 ， 想 象 目标 孙 数 作用 在 
西洋 跳棋 盘 上 。 棋 盘 包 含 许 多 变化 ， 但 只 有 一 个 条 单 的 结构 。 想 象 一 

下 ， 如 果 训 练 样本 数目 远 小 于 棋盘 上 的 黑 日 方块 数 日 ， 那 么 会 及 生 什 

么 。 基 于 局 部 泛 化 和 平 光 性 或 局 部 不 变性 先 验 ， 如 来 新 点 和 共 个 训练 样 
本 位 于 相同 的 棋盘 方块 中 ， 那 么 我 们 能 够 保证 正确 地 预测 新 后 的 颜色 。 
但 如 条 新 点 所 在 的 方 吴 没有 训练 样本 ， 笠 习 和 从 不 一 定 能 举一反三 。 如 末 
仅 依靠 这 个 先 验 ， 一 个 样本 只 能 香 诉 我 们 它 所 在 的 方块 的 其 色 。 获 得 整 
个 棋盘 向 色 的 唯一 方法 是 其 上 的 每 个 方块 至 少 要 有 一 个 样本 。 


只 要 在 要 学 习 的 真实 函数 的 峰值 和 谷 值 处 有 足够 多 的 样本 ， 那 么 平 清 性 
假设 和 相关 的 无 参数 学 习 算法 的 效 来 都 非 钊 好 。 当 要 学 习 的 函数 足够 平 
消 ， 并 且 只 在 少数 儿 维 变 化 时 ， 这 样 做 一 般 没 问题 。 在 高 维 空间 中 ， 即 
使 是 非 钊 平 请 的 函数 ， 也 会 在 不 同 维度 上 有 不 同 的 变化 方式 。 如 末 函 数 
在 不同 的 区 间 中 表现 不 一 样 ， 那 么 束 非 党 难 用 一 组 训练 样本 去 刻画 函 
数 。 如 下 函数 古 复 森 的 我 们 想 区 分 多 于 训练 样本 数目 的 大 量 区 间 )， 
A fs RIRA? 





这 些 问 题 ， 即 是 人 否 可 以 有 效 地 表示 复业 的 图 数 以 及 所 佑 计 的 函数 是 售 可 
以 很 好 地 泛 化 到 新 的 输入 ， 管 宁 是 有 的。 关键 观点 是 ， 只 要 我 们 通过 千 
外 假设 生成 数据 的 分 布 来 建立 区 域 间 的 依赖 天 系 ， 那 么 O(9O 个 样本 下 以 
描述 多 如 O(2 * ) 的 大 量 区 间 。 通 过 这 种 方式 ， 我 们 确实 能 做 到 非 局 部 的 
泛 化 (Bengio and Monperrus, 2005; Bengio etal., 2006b) 。 为 了 利用 
这 些 优势 ， 许 多 不 同 的 深度 学 习 算 法 都 提出 了 一 些 适 用 于 多 种 AI 任务 的 
隐 陈 或 显 陈 的 假设 。 


一 些 其 他 的 机 益 学 习 方法 往往 会 所 出 更 强 的 、 针 对 特定 问题 的 假说 。 例 
如 ， 假 设 目 标 函 数 是 周期 性 的 ， 我 们 很 容易 解决 棋盘 问题 。 通 第 ， 神 经 
网 络 不 会 包含 这 些 很 强 的 和 针对 特定 任务 的 ) 假设 ， 因 此 神经 网 络 可 以 
沁 化 到 更 广泛 的 各 种 结构 中 。 人 工 智 能 任务 的 结构 非常 复 洒 ， 很 难 限制 
到 人 徐 单 的 、 人 工 手动 指定 的 性 质 ， 如 周期 性 ， 因 此 我 们 希望 学 习 算 法 有 具 
有 更 通用 的 假设 。 深 度 学 习 的 核心 思想 是 假设 数据 由 因素 或 特征 组 合 产 
生 ， 这 些 因 系 或 特征 可 能 来 日 一 个 层次 结构 的 多 个 层级 。 许 多 其 他 类 似 
的 通用 假设 进一步 所 高 了 深度 学 习 算 法 。 这 些 很 温和 的 假设 允许 了 样本 
数目 和 可 区 分 区 间 数 目 乙 间 的 指数 增 蔓 。 这 次 指 数 增 苍 将 在 第 6.4.1T、 
第 15.4 人 和 第 15.5 节 中 更 详尽 地 介绍 。 深 度 的 分 布 式 表 示 市 来 的 指数 增 
从 有 效 地 解决 了 维 数 灾难 市 来 的 挑战 。 


5.11.3 流 形 学 习 
流 形 是 一 个 机 器 学 习 中 很 多 想法 内 在 的 重要 概念 。 


流 形 (manifold) 指 连接 在 一 起 的 区 域 。 数 学 上 ， 它 是 指 一 组 点 ， 且 每 
个 点 都 有 其 邻 域 。 给 定 一 个 任意 的 点 ， 其 流 形 局 部 看 起 来 像 古 欧 几 里 得 
空间 。 日 常生 活 中 ， 我 们 将 地 球 视 为 二 维 平 和 面 ， 但 实际 上 它 是 三 维 空间 
中 的 球状 流 形 。 


每 个 点 周围 邻 域 的 定义 暗示 看 存在 变换 能 够 从 一 个 位 置 移 动 到 其 邻 域 位 
置 。 例 如 在 地 球 表 面 这 个 流 形 中 ， 我 们 可 以 瑚 东 丙 西北 走 。 


尺 官 术语 “ 流 形 ”有 正式 的 数学 定义 ， 但 是 机 可 学 习 倾 回 于 更 松 敌 地 定义 
一 组 点 ， 只 需要 考 碟 少数 能 入 在 高 维 空间 中 的 目 由 度 或 维 数 束 能 很 好 地 
近似 。 每 一 维 部 对 应 看 局 部 的 变化 方 同 。 如 图 5.11 所 示 ， 训 练 数 据 位 于 
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REIT ATSC. A RE Ti A AAC Ta. A 
如 ， 数 字 “8"” 形 状 的 沈 形 在 大 多 数位 置 只 有 一 维 ， 但 在 中 心 的 相交 处 有 
两 维 。 
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图 5.11 ”从 一 个 三 维 空间 的 分 布 中 抽取 的 数据 样本 ， 这 些 样本 实际 上 聚集 在 一 维 流 形 附近 ， 像 
PERET o KRKE A A M AHE r I BAIE 
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多 机 右 学 习 问 题 看 上 去 都 是 无 望 的 。 流 形 学 习 (manifold learning) 算 
法 通过 一 个 假设 来 元 服 这 个 障碍 ， 该 假设 认为 R 中 大 部 分 区 域 部 是 无 
效 的 输入 ， 有 意义 的 输入 只 分 布 在 包含 少量 数据 点 的 子 集 构成 的 一 组 流 
形 中 ， 而 学 习 函 数 的 输出 中 ， 有 意义 的 变化 都 沿 看 流 形 的 方 回 或 仅 发 生 
在 我 们 切换 到 男 一 流 形 时 。 流 形 学 习 最 初 用 于 连续 数值 和 无 监督 学 习 的 
环境 ， 尽 管 这 个 概率 集中 的 想法 也 能 够 汉化 到 离散 数据 和 监督 学 习 的 设 
定 下 : 关键 假 设 仍然 是 概率 质量 高 度 集 中 。 


数据 位 于 低 维 流 形 的 假设 并 不 妃 古 对 的 或 者 有 用 的 。 我 们 认为 在 人 工 知 
能 的 一 些 场景 中 ， 如 涉及 处 理 图 像 、 声 音 或 者 文本 时 ， 流 形 假设 至 少 是 
近似 对 的 。 这 个 假设 的 文 持 证 据 包 合 两 闫 观察 结 


第 一 个 支持 流 形 假设 (manifold hypothesis) 的 观察 是 现实 生活 中 的 网 
像 、 文 本 、 声 音 的 概率 分 布 都 是 高 度 集 中 的 。 均 勺 的 噪声 从 来 不 会 与 这 
类 领域 的 结构 化 输入 类 似 。 图 5.12 显 示 均 匀 采 样 的 点 看 上 去 像 是 没有 信 
写 时 模拟 电视 上 的 静态 模式 。 同 样 ， 如 果 我 们 均匀 地 随机 抽取 字母 来 生 
成 文件 ， 能 有 多 大 的 概率 得 到 一 个 悬 义 的 英语 文档 ? 几乎 是 零 。 因 为 
大 部 分 字母 长 序列 不 对 应 看 目 然 语言 序列 : 目 然 语言 序列 的 分 布 只 占 了 
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图 5.12 ”随机 地 均匀 抽取 图 像 ORLY I op MELEE TRA) 会 得 到 噪声 图 像 。 尽 官 
在 人 工 镶 能 应 用 中 以 这 种 方式 生成 一 个 脸 或 者 其 他 物体 的 图 像 是 非 堆 概 率 的 ， 但 古 实 际 上 我 们 


从 来 没有 观察 到 这 种 现象 。 这 也 意味 痢 人 工 镶 能 应 用 中 遇 到 的 图 像 在 万 有 图 像 空 间 中 的 占 比 可 
以 是 忽略 不 计 的 


当然 ， 集 中 的 概率 分 布 不 在 以 说 明 数 据 位 于 一 个 相当 小 的 法 形 中 。 我 们 
还 必须 确 你 ， 所 巡 到 的 样本 和 其 他 样本 相互 连接 ， 每 个 样本 彼 其 他 高 度 
相似 的 样本 包围 ， 而 这 些 高 度 相似 的 样本 可 以 通过 变换 来 届 历 议 
到 。 文 持 沉 形 假设 的 第 二 个 论 氮 是 ， 我 们 全 少 能 够 非 正 式 地 力 象 这 些 邻 


域 和 变换 。 在 图 像 中 ， 我 们 当然 会 认为 有 很 多 可 能 的 变换 仍然 允许 我 们 
描绘 出 图 上 户 空 间 的 流 形 : BOT AY AEE RGR. IA A Bie 
FEAT AL. IBAA RA NES. FERS BUM IRA AY Bea 
WROTE © PON, ATP URI A a Bie XE fe Bl Sis oe PN RE i 

形 。 


这 些 文 持 流 形 假设 的 思维 实验 传递 了 一 些 文 持 它 的 百 观 理由 。 更 严格 的 
实验 (Cayton, 2005; Narayanan and Mitter, 2010; Schélkopf et al. , 
1998a; Roweis and Saul, 2000; Tenenbaum et al. , 2000; Brand, 
2003a; Belkin and Niyogi, 2003b; Donoho and Grimes, 2003; 
Weinberger and Saul, 2004a) EATE RER ZKE- KR BGR _E SZ 
持 了 这 个 假设 。 


当 数 据 位 于 低 维 流 形 中 时 ， 使 用 流 形 中 的 坐标 而 非 民 中 的 坐标 表示 
机 器 学 习 数据 更 为 自然 。 日 常生 活 中 ， 我 们 可 以 认为 道路 是 胖 入 在 三 维 
空间 的 一 维 流 形 。 我 们 用 一 维 道路 中 的 地 址 号 码 确定 地 址 ， 而 非 三 维 空 
间 中 的 坐标 。 提 取 这 些 流 形 中 的 坐标 是 非常 具有 挑战 性 的 ， 但 是 很 有 希 
望 改 进 许 多 机 器 学 习 算法 。 这 个 一 般 性 原则 能 够 用 在 很 多 情况 中 。 图 
5.13 展 示 了 包含 人 脸 的 数据 集 的 流 形 结构 。 在 本 书 的 最 后 ， 我 们 会 介绍 
二 蔚 学 悦 这样 的 流 形 结构 的 必 备 方法 。 在 图 20.6 中 | 我 们 将 看 到 机 器 学 

算法 如 何 成 功 完成 这 个 目标 。 
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15.13 QMUL Multiview Face 数 据 集 中 的 训练 样本 (Gong etal., 2000) ， 其 中 的 物体 是 移动 
W, AME i OT MPS re PS FE ET. RIE EF A SEE ANSE H eT A 
标 。 图 20.6 提 供 了 这 样 一 个 示例 


本 书 第 1 部 分 介绍 了 数学 和 机 器 学 习 中 的 基本 概念 ， 这 将 用 于 本 书 其 他 
章节 中 。 人 至 此 ， 我 们 已 经 做 好 了 人 研究 深度 学 习 的 准备 。 


Uo RIEA HE HEH WA EE EE ee A» RINE ERAI Se E 
Ao = diag(Ao) - 


第 2 部 分 TRAE: 现代 实践 
本 书 这 一 部 分 总 结 了 现代 深度 学 习 用 于 解决 实际 应 用 的 现状 。 


深度 学 习 有 大 悠 久 的 历史 和 许多 愿景 。 数 种 提出 的 方法 尚未 完全 结 出 来 
实 ， 数 个 雄心 盈 支 的 目标 尚未 实现 。 这 些 较 不 发 达 的 深度 学 习 分 文 将 出 
现在 本 书 的 最 后 一 部 分 。 


本 书 的 第 2 部 分 仅 关 注 那些 基本 上 已 在 工业 中 大 量 使 用 的 技术 方法 。 


现代 深度 学 习 为 监 丢 学 习 提供 了 一 个 强大 的 框 六 。 通 过 深 加 更 多 层 以 及 
问 层 内 添加 更 多 单元 ， 深 大 网 络 可 以 表示 复杂 性 不 断 增加 的 函数 。 给 定 
旦 够 大 的 模型 和 四 够 大 的 标注 训练 数据 集 ， 我 们 可 以 通过 深度 学 习 将 输 
入 同 量 映射 到 输出 问 量 ， 完 成 大 多 数 对 人 来 说 能 迅速 处 理 的 任务 。 其 他 
任务 ， 比 如 不 能 被 描述 为 将 一 个 同 量 与 妃 一 个 相关 联 的 任务 ， 或 者 对 于 
一 个 人 来 说 足够 困难 并 需要 时 间 思 知 和 反复 琢磨 才能 完成 的 任务 ， 现 在 
仍然 超出 了 深度 学 习 的 能 力 范 围 。 


本 书 这 一 部 分 摘 述 参数 化 函数 近似 技术 的 核心 ， 几 乎 所 有 现代 实际 应 用 
的 深度 学 习 背 后 都 用 到 了 这 一 技术 。 首 先 ， 我 们 描述 用 于 表示 这 些 冰 数 
的 前 馈 深度 网 络 模型 。 其 次 ， 我 们 提出 正则 化 和 优化 这 种 模型 的 局 级 技 
术 。 将 这 些 模 型 扩展 到 大 输入 《如 高 分 辩 率 图 像 或 长 时 间 序 列 ) 需要 专 
门 化 。 我 们 将 会 介绍 扩展 到 大 图 像 的 矢 积 网 络 和 用 于 处 理 时 间 序 列 的 循 
坏 神经 网 络 。 最 后 ， 我 们 提出 实用 方法 的 一 般 准 则 ， 有 助 于 设计 、 构 建 
和 配置 一 些 涉 及 深度 学 习 的 应 用 ， 并 回顾 其 中 一 些 应 用 。 


这 些 草 节 对 于 从 业者 来 说 是 最 重要 的 ， 也 融 是 六 ， 现 在 力 开 始 实现 和 使 
用 深度 学 习 算 法 解决 现实 问题 的 人 需要 阅读 这 些 章节 。 


第 6 章 TREE RU mI ZS 


IRER  Cdeep feedforward network) ， 也 叫 作 前 馈 神 经 网 络 
(feedforward neural net-work) 或 者 多 层 感 知 机 Cmultilayer 
perceptron, MLP) ， 十 典型 的 深度 学 习 模 型 。 前 饥 网 络 的 目标 是 近似 
EPRA o W, ATIR yY 二 f(x) 将 输入 x 映射 到 一 个 
类 别 y。 前 馈 网 络 定义 了 一 个 映射 yy = f(x: 0) ， 并 且 和 学 习 参 数 6 的 
信 ， 使 它 能 够 得 到 最 佳 的 函数 近似 。 


这 种 模型 被 称 为 前 向 (feedforward) 的 ， 是 因为 信息 流 过 x 的 函数 ， 流 
经 用 于 定义 f 的 中 间 计 算 过 程 ， 最 终 到 达 输 出 y 。 在 模型 的 输出 和 模型 
AS ALA Bit (feedback) 连接 。 当 前 锅 神 经 网 络 被 扩展 成 包含 反 
馈 连 接 时 ， 它 们 被 称 为 循环 神经 网 络 Crecurrent neural network) ， 这 
将 在 第 10 章 介绍 。 


表 饶 网 络 对 于 机 融和 学 习 的 从 业者 是 极其 重要 的 。 它 们 和 是 许 多 重要 商业 应 
用 的 基础 。 例 如 ， 用 于 对 照 厂 中 的 对 象 进行 识别 的 若 积 神经 网 络 束 是 一 
种 专门 的 前 馈 网 络 。 前 人 馈 网 络 是 通 往 循环 网 络 之 路 的 概念 基石 ， 后 者 在 
目 然 语言 的 许多 应 用 中 发 挥 看 巳 大 作用 。 


前 馈 神 经 网 络 之 所 以 被 称 作 网 络 ” (network) ， 是 因为 它们 通常 用 许多 
不 同 函 数 复 合 在 一 起 来 表示 。 访 模型 与 一 个 有 回 无 环 图 相关 联 ， 而 图 持 
述 了 函数 是 如 何 复 合 在 一 起 的 。 例 如 ,我们 有 三 个 函数 f 四 、f A 和 f © 
连接 在 一 个 链 上 以 形成 f(x )=f O (FO (FO RN) 。 这 些 链 式 结构 是 神经 网 
络 中 最 常用 的 结构 。 在 这 种 情况 下 ,，f ( 被 称 为 网 络 的 第 一 层 irst 
layer) , fO 被 称 为 第 二 层 (second layer) ， 以 此 类 推 。 链 的 全 长 称 为 
模型 的 深度 (depth) 。 正 是 因为 这 个 术语 才 出 现 了 "深度 学 习 ” 这 个 名 
字 。 前 饿 网络 的 最 后 一 层 被 称 为 输出 层 (output layer) 。 在 神经 网 络 训 
练 的 过 程 中 ， 我 们 让 f( x ) 去 匹配 f”(x ) 的 值 。 训 练 数 据 为 我 们 提供 了 在 
不 同 训练 点 上 取 值 的 、 含 有 噪声 的 f”( x ) 的 近似 实例 。 每 个 样本 x 都 伴 
随 痢 一 个 标签 ysf ”( x )。 训 练 样本 直接 指明 了 输出 层 在 每 一 点 x 上 必须 
做 什么 ， 它 必须 产生 一 个 接近 y 的 值 。 但 是 训练 数据 并 没有 直接 指明 其 
他 层 应 该 怎么 做 。 学 习 算 法 必须 决定 如 何 使 用 这 些 层 来 产生 想 要 的 输 
出 ， 但 是 训练 数据 并 没有 说 每 个 日 独 的 层 应 该 做 什么 。 相 反 ， 学 习 算 法 
必须 决定 如 何 使 用 这 些 层 来 最 好 地 实现 f 的 近似 。 因 为 训练 数据 并 没有 
给 出 这 些 层 中 的 每 一 层 所 需 的 输出 ， 所 以 这 些 层 被 称 为 隐 医 层 (hidden 
layer) 。 


最 后 ， 这 些 网 络 之 所 以 被 称 为 神经 网 络 ， 是 因为 它们 或 多 或 少 地 受到 神 
经 科学 的 司 及 。 网 络 中 的 每 个 隐藏 层 通 疝 都 是 同 量 值 的 。 这 些 隐 茂 层 的 
维 数 决定 了 模型 的 宽度 Cwidth) 。 癌 量 的 每 个 元 素 都 可 以 被 视 为 起 到 
类 似 一 个 神经 元 的 作用 。 除 了 将 层 想 象 成 回 量 到 癌 量 的 单个 函数 ， 我 们 
也 可 以 把 层 想 象 成 由 诗 多 并 行 操作 的 单元 (unit) 组 成 ， 每 个 单元 表示 
一 个 回 量 a 到 标量 的 函数 。 每 个 早 元 在 茶 种 意义 上 类 似 一 个 神经 元 ， 它 接 
收 的 输入 来 源 于 许多 其 他 的 单元 ， 并 计算 它 目 己 的 激活 值 。 使 用 多 层 同 
量 值 表 示 的 想法 来 源 于 神经 科学 。 用 于 计算 这 些 表 示 的 函数 f@ (x ) 的 选 
择 ， 也 或 多 或 少 地 受到 神经 科学 观测 的 指引 ， 这 些 观 测 是 天 于 生物 神经 
元 计算 功能 的 。 然 而 ， 现 代 的 神经 网 络 研究 有 党 到 更 多 的 是 来 目 许 多 数学 
和 工程 学 科 的 指引 ， 并 且 神 经 网 络 的 目标 并 不 是 完 关 地 给 大 脑 建 模 。 我 
们 最 好 将 前 馈 神 经 网 络 想 成 是 为 了 实现 统计 泛 化 而 设计 出 的 函数 近似 

机 ， 写 偶尔 从 我 们 了 解 的 大 脑 中 提取 有 灵感， 但 并 不 是 大 脑 功 能 的 模型 。 


一 种 理解 前 馈 网 络 的 方式 是 从 线性 模型 开始 ， 并 考 虚 如 何 殉 服 它 的 局 限 
性 。 线 性 模型 ， 例 如 逻辑 回归 和 线性 回归 ， 古 非常 吸引 人 的 ， 因 为 无 论 
是 通过 财 解 形式 还 是 使 用 上 是 优化 ， 它 们 都 能 融 效 且 可 菲 地 拟 合 。 线 性 标 
型 也 有 明显 的 缺陷 ， 那 束 古 该 模型 的 能 力 钻 局 限 在 线性 函数 里 ， 所 以 它 
无 法 理解 任何 两 个 输入 变量 间 的 相互 作用 。 


为 了 扩展 线性 模型 来 表示 x 的 非 线 性 函数 ， 我 们 可 以 不 把 线性 模型 用 于 
x 本 里 ， 而 是 用 在 一 个 变换 后 的 输入 q( x ) 上 ， 这 里 是 一 个 非 线 性 变 
换 。 同 样 ， 我 们 可 以 使 用 第 5.7.2 节 中 摘 述 的 核 拉 巧 ， 来 得 到 一 个 基于 隐 
舍 地 使 用 $ 映 射 的 非 线 性 学 习 算 法 。 我 们 可 以 认为 提供 了 一 组 摘 述 x 的 
特征 ， 或 者 认为 它 捉 供 了 x 的 一 个 新 的 表示 。 


剩 下 的 问题 惑 是 如 何 选择 映射 p。 


d) 其 中 一 种 选择 是 使 用 一 个 通用 的 6p， 例 如 无 限 维 的 op， 它 隐 含 地 用 
在 基于 RBF 核 的 核 机 器 上 。 如 果 @p(x ) 具 有 足够 高 的 维 数 ， 我 们 总 是 有 足 
够 的 能 力 来 拟 合 训练 集 ， 但 是 对 于 测试 集 的 泛 化 往往 不 佳 。 非 常 通 用 的 
特征 映射 通 负 只 基于 局 部 光 清 的 原则 ， 并 且 没 有 将 足够 的 先 验 信 息 进 行 
编 查 来 解决 高 级 问题 。 


(2) 为 一 种 选择 是 手动 地 设计 9。 在 深度 竺 习 出 现 以 前 ， 这 一 卫 古 主流 
的 方法 。 这 种 方法 对 于 每 个 持 独 的 任务 虱 圾 要 人 们 数 十 年 的 努力 ， 从 业 


者 各 目 擅 长 特定 的 领域 〈 如 语音 识别 或 计算 机 视 党 ) ， 并 且 不 同 领域 之 
间 很 难 迁 移 (transfer) 。 


(3) 深度 学 习 的 策略 是 去 学 习 p。 在 这 种 方法 中 ， 我 们 有 一 个 模型 

y = f(x;:0,w) =¢(x;0)'w 。 我 们 现在 有 两 种 参数 : 用 于 
从 一 大 类 函数 中 学 习 q 的 参数 9 ， 以 及 用 于 将 9( x ) 映 射 到 所 需 的 输出 的 
参数 w 。 这 是 深度 前 馈 网 络 的 一 个 例子 ， 其 中 定义 了 一 个 隐藏 层 。 这 
是 三 种 方法 中 唯一 一 种 放弃 训练 问题 的 凸 性 的 方法 ， 但 是 利 大 于 次 。 在 
这 种 方法 中 ， 我 们 将 表示 参数 化 为 0 ( 2; 0) ， 并 且 使 用 优化 算法 来 寻 
找 9 ， 使 它 能 够 得 到 一 个 好 的 表示 。 如 果 我 们 想 要 的 话 ， 这 种 方法 也 可 
以 通过 使 它 变 得 高 度 通 用 以 获得 第 一 种 方法 的 优点 一 一 我 们 只 需 使 用 一 
个 非常 广泛 的 函数 族 @( 工 ; O) 。 这 种 方法 也 可 以 获得 第 二 种 方法 的 优 
点 。 人 类 专家 可 以 将 他 们 的 知识 编码 进 网 络 来 帮助 泛 化 ， 他 们 只 需要 设 
计 那 些 他 们 期 望 能 够 表现 优异 的 函数 族 @( 2; 0) 即 可 。 这 种 方法 的 优 
NNER MN = ene aera 
函数 。 


这 种 通过 学 习 特 征 来 改善 模型 的 一 般 化 原则 不 仅仅 适用 于 本 章 插 述 的 前 
饥 神 经 网 络 。 它 是 深度 学 习 中 反复 出 现 的 主题 ， 适 用 于 本 书 拉 述 的 所 有 
种 类 的 模型 。 前 馈 神 经 网 络 是 这 个 原则 的 应 用 ， 它 学 习 从 x 到 y 的 确定 
性 映射 并 且 没 有 反馈 连接 。 后 面 出 现 的 其 他 模型 会 把 这 些 原 则 应 用 到 学 
习 随 机 上 映射、 学 习 珊 有 反馈 的 函数 以 及 学 习 单个 同 量 的 概率 分 布 。 


本 草 我 们 先 从 二 人 馈 网 络 的 一 个 人 简 蛙 例子 说 起 。 接 看 ， 我 们 讨论 部 著 一 个 
前 饭 网 络 所 需 的 每 个 设计 雇 案 。 首 移 ， 训 练 一 个 前 饭 网 络 至 少 需要 做 和 
线性 模型 同样 多 的 设计 决策 : 选择 一 个 优化 模型 、 代 价 函 数 以 及 输出 单 
元 的 形式 。 我 们 爷 回 顾 这 些 基 于 棉 度 学 习 的 基本 知识 ， 然 后 去 面 对 那 些 
只 出 现在 前 饭 网 络 中 的 设计 雇 策 。 前 饥 网 络 已 经 引入 了 隐 荐 层 的 概念 ， 
这 需要 我 们 去 选择 用 于 计算 隐 基 层 值 的 激活 函数 (activation 
function〉。 我 们 还 必须 设计 网 络 的 结构 ， 包 括 网 络 应 该 包含 多 少 层 、 
这 些 层 应 该 如 何 连接 ， 以 及 每 一 层 包 含 多 少 单元 。 在 深度 神经 网 络 的 学 
习 中 需要 计算 复 休 水 数 的 梯度 。 我 们 给 出 反问 传播 (back 
propagation〉 富 法 和 它 的 现代 推广 ， 它 们 可 以 用 来 融 效 地 计算 这 些 榜 
上 度 。 最 后 ， 我 们 以 菜 些 历 史 观 点 来 结束 这 一 章 。 





6.1 实例; 学 习 XOR 


为 了 使 前 饥 网 络 的 想法 更 加 有 共 体 ， 我 们 首先 从 一 个 可 以 完整 工作 的 前 侯 
网 络 资 起。 这 个 例子 解决 一 个 非 冲 简单 的 任务 : OJ XOR ER BL 


XORA (FRE A) 是 两 个 二 进 制 值 x | 和 x ， 的 运算 。 当 这 些 二 进 
制 值 中 恰好 有 一 个 为 1 时 ，XOR 函 数 返 回 值 为 1。 其 余 情况 下 返回 值 为 
0。XOR 函 数 提供 了 我 们 想 要 学 习 的 目标 函数 y = f(a) 。 我 们 的 模 
型 给 出 了 一 个 函数 1 = 了 (2: 9) ， 并 且 我 们 的 学 习 算法 会 不 断 调整 参 
数 9 来 使 得 f 尽 可 能 接近 f 。 

在 这 个 简 里 的 例子 中 ， 我 们 不 会 天 心 统 计 泛 化 。 我 们 希望 网 络 在 这 4 个 
“X = {[0,0] ,|[0, 1 ,[1,0]', [1,1] } 上 表现 正确 。 我 们 会 用 全 
部 这 4 个 点 来 训练 我 们 的 网 络 ， 唯 一 的 挑战 是 拟 合 训练 集 。 

我 们 可 以 把 这 个 问题 当 作 回归 问题 ， 并 使 用 均 方 误差 损失 函数 。 选 择 这 
个 损失 函数 是 为 了 尽 可 能 地 人 简化 本 例 中 用 到 的 数学 知识 。 在 应 用 领域 ， 
对 于 二 进 制 数据 建 模 时 ，MSE 通 第 并 不 是 一 个 合适 的 代价 函数 。 更 加 合 
适 的 方法 将 在 第 6.2.2.2 节 中 讨论 。 


评估 整个 训练 集 上 表现 的 MSE 代 价 函 数 为 


J(0)=— X_(f* (x) — f(#;0))? (6.1) 


LEX 


我 们 现在 必须 要 选择 模型 f( x ; 9 ) 的 形式 。 假 设 选 择 一 个 线性 模型 ， 6 
包含 w 和 b， 那 么 模型 被 定义 成 


f(e; ww, 6) = x'w +b (6.2) 
我 们 可 以 使 用 正规 方程 关于 w 和 b 最 小 化 J( 0 )， 来 得 到 一 个 闭 式 解 。 


解 正规 方程 以 后 ， 我 们 得 到 w 二 0 以 及 b = 了 。 线 性 模型 仅仅 是 在 任意 
一 扩 必 输出 0.5。 为 什么 会 友 生 这 种 事 ? 图 6.1 江 示 了 线性 模型 为 什么 不 
能 用 来 表示 XOR 函 数 。 解 决 这 个 问题 的 其 中 一 种 方法 是 使 用 一 个 模型 来 


d 


学 习 一 个 不 同 的 特征 空间 ， 在 这 个 空间 上 线性 模型 能 够 表示 这 个 解 。 
l 0 
0 0 1 
0 1 9 





hy 





图 6.1 通过 学 习 一 个 表示 来 解决 XOR 问 题 。 图 上 的 粗 体 数字 标明 了 学 得 的 函数 必须 在 每 个 点 输 
RIE. E) 和 耻 接 应 用 于 原始 输入 的 线性 模型 不 能 实现 XOR 函 数 。 当 x 1 三 0 时 ， 模 型 的 输出 
ABE ATX 2 的 增 大 而 增 大 。 当 x 1 三 1 时 ， 模 型 的 输出 必须 随 看 x > 的 增 大 而 减 小 。 线 性 模型 必 
须 对 x 2 使 用 固定 的 系数 w 2 。 因 此 ， 线 性 模型 不 能 使 用 x 1 的 值 来 改变 x > 的 系数 ， 从 而 不 能 解 
PRIX THe. CE) 在 由 神经 网 络 提取 的 特征 表示 的 变换 空间 中 ， 线 性 模型 现在 可 以 解决 这 个 

问题 了。 在 我 们 的 示例 解决 方 条 中 ， 输 出 必须 为 1 的 两 个 点 折 欠 到 了 特征 空间 中 的 单个 后 。 换 句 


话说 ， 非 线性 特征 将 a = [1,0] ”和 æ = [0, 1] ”都 映射 到 了 特征 空间 中 的 单个 点 
h = [1,0|]”。 线 性 模型 现在 可 以 将 函数 掺 述 为 h 1 增 大 和 h > 减 小 。 在 该 示例 中 ， 学 习 特 征 空 


间 的 动机 仅仅 是 使 得 模型 的 能 力 更 大 ， 使 得 它 可 以 拟 合 训 练 集 。 在 更 现实 的 应 用 中 ， 和 学习 的 表 
示 也 可 以 帮助 模型 泛 化 


具体 来 说 ， 我 们 这 里 引入 一 个 非常 简单 的 前 馈 神经 网 络 ， 它 有 一 层 隐 茂 
层 并 且 隐 藏 层 中 包含 两 个 单元 ， 见 图 6.2 中 对 该 模型 的 解释 。 这 个 前 馈 
GIy seh le aR lat rh 
这 些 隐 藏 单元 的 值 随后 被 用 作 第 二 层 的 输入 。 第 二 层 就 是 这 个 网 络 的 输 
Hja e aw 大 只 是 一 个 线性 回归 模型 ， Tre 它 作 用 于 hh 而 不 
网 络 现在 包含 链接 在 一 起 的 两 个 函数 : 
h = f(a; Wo) A y = SP hwb ， 完 整 的 模型 是 
f(z; W,c,w,b) = FHU ie) 











图 6.2 ”使 用 两 种 不 同样 式 绘制 的 前 馈 网 络 的 示例 。 具 体 来 说 ， 这 是 我 们 用 来 解决 XOR 问 题 的 前 
馈 网 络 。 它 有 单个 隐藏 层 ， 包 含 两 个 单元 。 Ce) 在 这 种 样式 中 ， 我 们 将 每 个 单元 绘制 为 图 中 
的 一 个 节点 。 这 种 风格 是 清楚 而 明确 的 ， 但 对 于 比 这 个 例子 更 大 的 网 络 ， 它 可 能 会 消耗 太 多 的 
空间 。〔 右 ) 在 这 种 样式 中 ， 我 们 将 表示 每 一 层 激活 的 整个 向 量 绘制 为 图 中 的 一 个 节点 。 这 种 
样式 更 加 上 紧凑。 有时， 我 们 对 图 中 的 边 使 用 参数 名 进行 注释 ， 这 些 参数 是 用 来 描述 两 层 之 间 的 
RAN. OH, RHEE A HEA x 到 hh 的 映射 ， 用 向 量 w 描述 从 h 到 y 的 映射 。 当 标 i 
种 图 时 ， 我 们 通常 省 略 与 每 个 层 相 关联 的 截 距 参数 


fO 应 该 是 哪 种 函数 ? 线性 模型 到 目前 为 止 都 表现 不 错 ， 让 f 中 也 是 线性 
的 似乎 很 有 诱惑 力 。 可 惜 的 是 ， 如 果 f © 是 线性 的 ， 那 么 前 馈 网 络 作 为 
一 个 整体 对 于 输入 仍然 是 线性 的 。 暂 时 忽略 截 距 项 ， 假 设 

fYO(2)= W'e SFA FO(h)=h w, Wm 和 fr)=w We 
。 我 们 可 以 将 这 个 函数 重新 表示 成 

f(z)= zx w’, EP w = Ww- 

显然 ， 我 们 必须 用 非 线性 函数 来 描述 这 些 特征 。 大 多 数 神经 网 络 通过 仿 


味 变 换 之 后 案 跟 看 一 个 锐 称 为 激活 函数 的 固定 非 线 性 函数 来 实现 这 个 目 
标 ， 其 中 仿 射 变换 由 学 得 的 参数 控制 。 我 们 这 里 使 用 这 种 稼 略 ， 定 义 








h 二 g(W'z +e) HEW 是 线性 变换 的 权重 矩阵 ， c Ei 
置 。 此 前 ， 为 了 摘 述 线性 回归 模型 ， 我 们 使 用 权重 同 量 和 一 个 标量 的 偏 
置 参 数 来 摘 述 从 输入 同 量 到 输出 标量 的 仿 射 变换 。 现 在 ， 因 为 摘 述 的 是 
可 量 x 到 问 量 h 的 仿 射 变换 ， 所 以 我 们 需要 一 整个 同 量 的 仿 置 参数 。 激 
活 国 数 g 通 钊 选择 对 每 个 元 对 分 别 起 作用 的 函数 ， 有 

hi 一 g(a! W., + Ci) o 在 现代 神经 网 络 中 ， 默认 的 推荐 是 使 用 EH ax 
活 函 数 g(Z 王 max{0,z} 定 义 的 整流 线性 单元 (rectified linear unit) 或 者 
称 为 ReLU (Jarrett et al. , 2009b; Nair and Hinton, 2010a; Glorot et al. 
, 2011a) ， 如 图 6.3 所 示 。 
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此 函数 用 于 线性 变换 的 输出 将 产生 非 线 性 变换 。 然 而 ， 函 数 仍 然 非常 接近 线性 ， 在 这 种 意义 上 
它 是 具有 两 个 线性 部 分 的 分 段 线性 函数 。 由 于 整流 线性 单元 几乎 是 线性 的 ， 因 此 它们 保留 了 许 
多 使 得 线性 模型 多 于 使 用 基于 柳 度 的 方法 进行 优化 的 属性 。 筷 们 还 你 留 了 许多 使 得 线性 模型 能 
够 沁 化 民 好 的 属性 。 计 算 机 科学 的 一 个 公共 原则 是 ， 我 们 可 以 从 最 小 的 组 件 构建 复杂 的 系统 。 
We 
Lair 


现在 可 以 指明 我 们 的 整个 网 络 是 
fia; W, ew, D = w! max{0, W'r+ c} +b (6.3) 


我 们 现在 可 以 给 出 XOR 问 题 的 一 个 解 。 令 








L ft 
0 
= 6.5 
sfo] ts 
w= (6.6) 
he 
以 及 b 王 0。 


我 们 现在 可 以 了 解 这 个 模型 如 何 处 理 一 批 答 入 。 令 取 eR, 
它 包含 二 进 制 输入 空间 中 全 部 的 四 个 点 ， 每 个 样本 古 一 行 ， 那 么 矩阵 表 
示 为 


= 
þa 


TZE P 2% SY SE — ee A AE BEIR A S — J EN A E B : 
0 0 
4 
2 2 
人 然后， 我 们 加 上 偶 症 癌 星 c ， 得 到 
U 一 
1 9 


RD oe 
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在 这 个 空间 中 ， 所 有 的 样本 都 处 在 一 条 斜率 为 1 的 直线 上 。 当 我 们 沿 着 
这 条 直线 移动 时 ， 输 出 需要 从 0 升 到 1， 然 后 再 降 回 0。 线 性 模型 不 能 实 
现 这 样 一 种 函数 。 为 了 用 hh 对 每 个 样本 求 值 ， 我 们 使 用 整流 线性 变换 

QO 0 

I 9 

I Q 

A l 


这 个 变换 改变 了 样本 则 的 关系。 它们 不 再 处 于 同一 条 和 卫 线 上 了 。 如 图 
6.1 所 示 ， 它 们 现在 处 在 一 个 可 以 用 线性 模型 解决 的 空间 上 。 


EAN tec Ja HEA A TB) Ew : 


(6.10) 
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w 


(6.11) 
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神经 网 络 对 这 一 批 次 中 的 每 个 样本 都 给 出 了 正确 的 续 


在 这 个 例子 中 ， 我 们 简单 地 指定 了 解决 方案， 然后 说 明 它 得 到 的 误 关 为 
零 。 在 实际 情况 中 ， 可 能 会 有 数 十 亿 的 模型 参数 以 及 数 十 亿 的 训练 样 
本 ， 所 以 不 能 像 我 们 这 里 做 的 那样 进行 徐 单 地 猜 解 。 与 之 相对 的 ， 基 于 
榜 度 的 优化 算法 可 以 找到 一 些 参数 使 得 产生 的 误差 非常 小 。 这 里 给 出 的 
XOR 问 题 的 解 处 在 损失 函数 的 全 局 最 小 点 ， 所 以 柳 度 下 降 算 法 可 以 收 伍 
到 这 一 点 。 株 度 下 降 算 法 还 可 以 找到 XOR 问 题 一 些 其 他 的 等 价 解 。 梯 度 
下 降 算 法 的 收 伍 后 取决 于 参数 的 急 始 值 。 在 实践 中 ， 标 度 下 降 通 第 不 会 
找到 像 我 们 这 里 给 出 的 那 种 干 疤 的 、 容 易 理 解 的 、 整 数值 的 解 。 


6.2 ”基于 梯度 的 学 习 


设计 和 训练 神经 网 络 与 使 用 榜 度 下 降 训练 其 他 任何 机 需 学 习 蛋 型 并 没有 
太太 不同 。 在 第 5.10 节 中 ， 我 们 拍 述 了 如 何 通过 指定 一 个 优化 过 程 、 代 
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我 们 到 目前 为 止 看 到 的 线性 模型 和 神经 网 络 的 最 大 区 别 ， 在 于 神经 网 络 
的 非 线 性 叶 致 大 多 数 我 们 感 兴趣 的 代价 函数 虱 变 得 非 凸 。 这 意味 看 神经 
网 络 的 训练 通 第 使 用 达 代 的 、 基 于 构 庆 的 优化 ， 仪 仅 使 得 代价 函数 达到 
一 个 非常 小 的 值 ， 而 不 是 像 用 于 训练 线性 回归 模型 的 线性 方程 求解 器 ， 
或 者 用 于 训练 效 辑 回归 或 SVM 的 凸 优化 算法 那样 保证 全 局 收 钱 。 凸 优化 
从 任何 一 种 初始 参数 出 发 都 会 收敛 理论 上 如 此 一 一 在 实践 中 也 很 重 棱 
(Any RERE RAUR ale). HT ECI R eh SU BLE BRC AP 
BOSE PRUE, FP LS Zh ee LTR BUR © ATRAN, ORE TAL 
的 权重 值 初 始 化 为 小 随机 数 是 很 重要 的 。 偶 置 可 以 初始 化 为 零 或 者 小 的 
正 值 。 这 种 用 于 训练 前 馈 神 经 网 络 以 及 几乎 所 有 深度 模型 的 太 代 的 基于 
榜 度 的 优化 算法 会 在 第 8 草 详 细 介 绍 ， 参 数 初 始 化 会 在 第 8.4 站 中 有 其 体 说 
明 。 融 目前 而 言 ， 只 需要 全 得 ， 训 练 算法 几乎 总 是 基于 使 用 柳 度 来 使 得 
代价 函数 下 降 的 各 种 方法 即 可 。 一 些 特别 的 算法 是 对 梯度 下 降 思 想 的 改 
进 和 提纯 在 第 4.3 节 中 介绍 ) 还 有 一 些 更 特别 的 ， 大 多 数 是 对 随机 榜 
及 下 降 算法 的 改进 在 第 5.9 市 中 介绍 )。 


我 们 当然 也 可 以 用 柳 度 下 降 来 训练 请 如 线性 回归 和 支持 问 量 机 之 类 的 模 
型 ， 并 且 事 实 上 当 训 练 集 相当 大 时 这 是 很 第 用 的 。 从 这 一 后 来 看 ， 训 练 
俐 经 网 络 和 训练 其 他 任何 模型 并 没有 太 大 区 列 。 计 算 柳 大 对 于 神经 网 络 
会 略 敌 复 杂 一 些 ， 但 仍然 可 以 很 高 效 而 精确 地 实现 。 第 6.5 节 将 会 介绍 
如 何 用 反 回 传播 算法 以 及 它 的 现代 扩展 算法 来 求 得 梯度 。 


和 其 他 的 机 右 学 习 模 型 一 样 ， 为 了 使 用 基于 标 度 的 学 习 方 法 ， 我 们 必须 
选择 一 个 代价 函数 ， 并 且 必 须 选择 如 何 表示 模型 的 输出 。 现 在 ， 我 们 午 
瘟 这 些 设计 上 的 考虑 ， 并 且 特 列强 调 神 经 网 络 的 情景 。 


6.2.1 代价 函数 

深度 神经 网 络 设计 中 的 一 个 重要 方面 是 代价 函数 的 选择 。 幸 运 的 是 ， 神 
经 网 络 的 代价 函数 或 多 或 少 是 和 其 他 的 参数 模型 (例如 线性 模型 的 代价 
函数 ) 相同 的 。 


在 大 多 数 情况 下 ， 参 数 模 型 定义 了 一 个 分 布 p(y | x ; 06) 并 且 简 单 地 使 用 
最 大 似 然 原理 。 这 意味 着 我 们 使 用 训练 数据 和 模型 预测 间 的 交叉 炉 作为 


代价 函数 。 


有 时 ， 我 们 使 用 一 个 更 简单 的 方法 ， 不 是 预测 y 的 完整 概率 分 布 ， 而 是 
仅仅 预测 在 给 定 x 的 条 件 下 y 的 某 种 统计 量 。 某 些 专门 的 损失 函数 允许 
我 们 来 训练 这 些 估计 量 的 预测 器 。 


用 于 训练 神经 网 络 的 完整 的 代价 函数 ， 通 第 在 我 们 这 里 摘 述 的 基本 代价 
图 数 的 基础 上 结合 一 个 正则 项 。 我 们 已 经 在 第 5.2.2 节 中 看 到 正则 化 应 用 
到 线性 便 型 中 的 一 些 简单 的 例子 。 用 于 线性 模型 的 权重 桶 减 方法 也 直接 
适用 于 深度 神经 网 络 ， 而 且 古 最 流行 的 正则 化 集 略 之 一 。 用 于 神经 网 络 
的 更 局 级 的 正则 化 东 略 将 在 第 7 革 中 讨论 。 


6.2.1.1 使 用 最 大 似 然 学 习 和 条件 分 布 


大 多 数 现代 的 神经 网 络 使 用 最 大 似 然 来 训练 。 这 童 味 看 代价 函数 就 是 负 
的 对 数 似 然 ， 它 与 训练 数据 和 模型 分 布 间 的 交 文 烂 等 价 。 这 个 代价 函数 
表示 为 


J(0) z ai log Pmodel(Y | x ) (6.12) 


代价 函数 的 具体 形式 随 着 模型 而 改变 ， 取 决 于 ]Og Dmoder 的 有 具体 形 
式 。 上 述 方程 鸭 展开 形式 通 单 会 有 一 些 项 不 依赖 于 模型 的 参数 ， 我 们 可 
Wea. PIO, IEMA Pe BI, QR 

Pmodel(y | ©) =N(y; f(a: 0). I) ， 那 么 我 们 就 重新 得 到 了 
均 方 误差 代 价 : 


1 
J(0) = SExy~panally 一 7(zi6)||2 + const (6.13) 


至 少 系数 和 常数 项 不 人 天 于 “8 BINAFSI 


到， 在 这 种 情况 下 ， 我 们 选择 不 把 它 参 数 化 。 之 前 ， 我 们 看 到 了 对 输出 
分 布 的 最 大 似 然 估计 和 对 线性 柑 型 均 方 误 天 有 的 最 小 化 之 则 有 的 等 价 性 ， 但 
事实 上 ， 这 种 等 价 性 并 不 要 求 f( x ;9 ) 用 于 预测 融 斯 分 布 的 均值 。 


使 用 最 大 似 然 来 导出 代价 函数 的 方法 的 一 个 优势 是 ， 它 减轻 了 为 每 个 侦 
型 设计 代价 函数 的 负担 。 明 确 一 个 模型 p(y | x ) 则 目 动 地 确定 了 一 个 代 


iy Pk BUlogp (y |x )。 
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非常 平 ) 的 函数 破坏 了 这 一 目标 ， 因 为 它们 把 梯度 变 得 非常 小 。 这 在 很 
多 情况 下 都 会 发生， 因为 用 于 产生 隐藏 单元 或 者 输出 单元 的 输出 的 激活 
图 数 会 饱和 。 负 的 对 数 似 然 帮 助 我 们 在 很 多 模型 中 避免 这 个 问题 。 很 多 
输出 单元 部 会 包含 一 个 指数 函数 ， 这 在 它 的 变量 取 绝 对 值 非常 大 的 负 值 
时 会 造成 饱和 。 人 负 对 数 似 然 代 价 函 数 中 的 对 数 函 数 消 除了 条 些 输出 单元 
中 的 指数 效果 。 我 们 将 会 在 第 6.2.2 节 中 讨论 代价 函数 和 输出 单元 的 选择 
则 的 相互 作用 。 


用 于 实现 最 大 似 然 佑 计 的 交叉 精 代价 函数 有 一 个 不 同 寻 第 的 特性 ， 那 惑 
是 当 它 被 应 用 于 实践 中 经 第 过 到 的 模型 时 ， 它 通 第 没有 最 小 值 。 对 于 离 
故 型 输出 变量 ， 大 多 数 模型 以 一 种 特殊 的 形式 来 参数 化 ， 即 它们 不 能 

示 概 率 零 和 一 ， 但 是 可 以 无 限 接近 。 刻 辑 回归 是 其 中 一 个 例 于 。 对 于 实 
{ELE Fan eee, SORE BY DA eae rill tag ad a BE CG, We Sd ty 
Wr hi aI ABO) » AA EAT REX IEW AI VIZER H I TAK 
HA) Pe BE, CRE RAS SCT TA] GTC Fo 7 P HIS HY IE MU Ae A pe HE 
ae et nen nen 
无 限制 的 收益 。 


6.2.1.2 ”学 习 条 件 统 计量 


有 时 我 们 并 不 是 想 学 习 一 个 完整 的 概率 分 布 p (y | xX ; 9 )， 而 仅仅 是 想 学 
习 在 给 定 x 时 y 的 茶 个 条 件 统计 量 。 


例如 ， 我 们 可 能 有 一 个 预测 器 f( x ; 0 )， 想 用 它 来 预测 y 的 均值 。 如 果 
使 用 一 个 足够 蝇 大 的 神经 网 络 ， 我 们 可 以 认为 这 个 神经 网 络 能 够 表示 一 
大 类 函数 中 的 任何 一 个 函数 f{， 这 个 类 仪 仅 被 一 些 特征 所 限制 ， 例 如 巡 
续 性 和 有 界 ， 而 不 是 具有 特殊 的 参数 形式 。 从 这 个 角度 来 看 ， 我 们 可 以 
FEAT PB VE “Nz (functiona) ， 而 不 仅仅 是 一 个 函数 。 泛 函 
征 函 数 到 实数 的 映射 。 因 此 我 们 可 以 将 学 习 看 作 选 择 一 个 函数 ， 而 不 仅 
仅 是 选择 一 组 参数 。 可 以 设计 代价 这 函 在 我 们 想 要 的 茶 些 特殊 函数 处 取 
得 最 小 值 。 例 如 ， 我 们 可 以 设计 一 个 代价 之 函 ， 使 它 的 最 小 值 处 于 一 个 
FRIRE, IARR x 映射 到 给 定 x 时 y 的 期 望 值 。 对 函数 求解 


优化 问题 需要 用 到 变 分 法 (calculus of variations) 这 个 数学 工具 ， 我 们 
将 在 第 19.4.2 节 中 讨论 。 理 解 变 分 法 对 于 理解 本 章 的 内 容 不 是 必要 的 。 
目前 ， 只 需要 知道 变 分 法 可 以 被 用 来 导出 下 面 的 两 个 结 

我 们 使 用 变 分 法 导出 的 第 一 个 结果 是 解 优 化 问题 : 


J” 一 arg min | y~pasta||Y = fæl? (6.14) 
f 


得 到 

T (E) 一 ee T (6.15) 
ERIS TS PRUETT. PATA, MRR BE oe AG 
ZW. SVR BSE OE MO) A EASE VIZ B/S REN 
价 函 数 将 得 到 一 个 函数 ， 它 可 以 用 来 对 每 个 x PEL IU HE y 的 均值 。 
不 同 的 代价 函数 给 出 不 同 的 统计 量 。 第 二 个 使 用 变 分 法 得 到 的 结果 是 


T =argmin Ee sepa | — F (6.16) 
f 


将 得 到 一 个 函数 可 以 对 每 个 x 预测 y 取 值 的 中 位 数 ， 只 要 这 个 函数 在 我 
们 要 优化 的 函数 族 里 。 这 个 代价 函数 通 第 被 称 为 平均 绝对 误 大 《mean 


absolute error) 。 


ATR ce, BIT RAMPER RA TEN 2 PB E LT FEE 
成 效 不 佳 。 一 些 饱 和 的 输出 单元 当 结 合 这 些 代价 函数 时 会 产生 非常 小 的 
RE o XE E AART RA EIT RERE PER RE E SEA 
原因 之 一 了 ， 即 使 是 在 没 必 要 估计 整个 p(y|x ) 分 布 时 。 


6.2.2 ”输出 单元 

代价 函数 的 选择 与 输出 单元 的 选择 紧密 相关 。 大 多 数 时 候 ， 我 们 简单 地 
(at FE HEA) AAR ZA ES. EPR aT SE AH RE T L 
函数 的 形式 。 


任何 可 用 作 输 出 的 神经 网 络 单元 ， 也 可 以 被 用 作 隐 茂 单 元。 这 里 ， 我 们 
看 重 讨论 将 这 些 单 元 用 作 模 型 输出 时 的 情况 ， 不 过 原则 上 它们 也 可 以 在 


AEB EAL © OTR ESB 6.3715 PIR EE, FP AL Ze A ENHE 
Pak oe TG — EB a Ib A o 

在 本 市 中 ， 我 们 假设 前 馈 网 络 提 供 了 一 组 定义 为 h =f (x ; 0 DH Re 
征 。 输 出 层 的 作用 是 随后 对 这 些 特征 进行 一 些 额外 的 变换 来 完成 整个 网 
络 必 须 完成 的 任务 。 


6.2.2.1 ”用 于 高 斯 输出 分 布 的 线性 单元 


一 种 简单 的 输出 单元 是 基于 仿 射 变换 的 输出 单元 ， 仿 射 变换 不 具有 非 线 
性 。 这 些 单元 往往 被 直接 称 为 线性 单元 。 
给 定 特 征 h ， 线 性 输出 单元 层 产 生 一 个 向 量 和 二 W hH be 
线性 输出 层 经 常 被 用 来 产生 条 件 高 斯 分 布 的 均值 : 

p(y | £) = N (ys 9. T) (6.17) 
最 大 化 其 对 数 似 然 此 时 等 价 于 最 小 化 均 方 误差 。 
最 大 似 然 框架 也 使 得 学 习 高 斯 分 布 的 协 方差 矩阵 更 加 容易 ， 或 更 容易 地 
使 高 斯 分 布 的 协 方差 矩阵 作为 输入 的 函数 。 然 而 ， 对 于 所 有 输入 ， 协 方 
差 矩阵 都 必须 被 限定 成 一 个 正定 矩阵 。 线 性 输出 层 很 难 满 足 这 种 限定 ， 
所 以 通常 使 用 其 他 的 输出 单元 来 对 协 方差 参数 化 。 对 协 方差 建 模 的 方法 
将 在 第 6.2.2.4 节 中 简要 介绍 。 


因为 线性 单元 不 会 饱和 ， 所 以 它们 易于 采用 基于 梯度 的 优化 算法 ， 长 至 
可 以 使 用 其 他 多 种 优化 算法 。 


6.2.2.2 ”用 于 Bernoulli 输 出 分 布 的 sigmoid 早 元 


许多 任务 需要 预测 二 值 型 变量 y 的 值 。 具 有 两 个 类 的 分 类 问题 可 以 归结 
为 这 种 形式 。 


此 时 最 大 似 然 的 方法 是 定义 y 在 x 条 件 下 的 Bernoulli 分 布 。 


Bernoulli 分 布 仪 需 日 个 参数 来 定义 。 神 经 网 络 只 需要 预测 


P(y 一 | £) 即 可 。 为 了 使 这 个 数 是 有 效 的 概率 ， 它 必须 处 在 区 间 
[0,1] 中 。 


为 满足 该 约束 条 件 需要 一 些 细致 的 设计 工作 。 假 设 我 们 打算 使 用 线性 单 
元 ， 并 且 通 过 国 值 来 限制 它 成 为 一 个 有 效 的 概率 : 


P(y = 1 | x) = max {0, min{1, w' h +b}} (6.18) 


SWE SA AR PR PA, TAT TI 1 BEB BR E 
效 地 训练 它 。 当 wy | yp b 处 于 单位 区 间 外 时 ， 模 型 的 输出 对 其 参数 的 
梯度 都 将 为 0 。 梯 度 为 0 通 音 是 有 问题 的 ， 因 为 学 习 算法 对 于 如 何 改善 
相应 的 参数 不 册 具 有 指导 意义 。 


相反 ， 了 最 好 是 使 用 一 种 新 的 方法 来 你 证 无 论 何 时 蛋 型 给 出 了 错误 的 答案 
时 ， 总 能 有 一 个 较 大 的 梯度 。 这 种 方法 是 基于 使 用 sigmoid 输 出 单元 结 
合 最 大 似 然 来 实现 的 。 


sigmoid 输 出 单元 定义 为 
二 看 (wih +b) (6.19) 
这 里 ao 是 第 3.10 节 中 介绍 的 logistic sigmoid ch 2X. 


我 们 可 以 认为 sigmoid 输 出 单元 具有 两 个 部 分 。 首 先 ， 它 使 用 一 个 线性 
Rit z= ap! h +h - 其 次 ， 它 使 用 Sigmoid 激 活 函 数 将 z 转 化 成 概 


我 们 暂时 忽略 对 于 x 的 依赖 性 ， 只 讨论 如 何 用 z 的 信 来 定义 y 的 概率 分 
布 。sigmoid 可 以 通过 构造 一 个 非 归 一 化 《和 不 为 1) 的 概率 分 布 P(w) 
来 得 到 。 我 们 可 以 随后 除 以 一 个 合适 的 利 数 来 得 到 有 效 的 概率 分 布 。 如 
果 假 定 非 归 一 化 的 对 数 概率 对 y 和 z 是 线性 的 ， 可 以 对 它 取 指数 来 得 到 非 
归 一 化 的 概 雍 。 然 后 对 它 归 一 化 ， 可 以 及 现 这 服从 Bernoulli 分 布 ， 访 分 
布 受 z 的 sigmoid 变 换 控 制 : 


log P(y) = yz (6.20) 


P(y) = exp(yz) (6.21) 
exp(yz spen 
Ply) = oe (6.22) 
E exp(y’z) 
P(y) = a((2y — 1)z) (6.23) 


基于 指数 和 归 一 化 的 概率 分 布 在 统计 建 模 的 文献 中 很 常见 。 用 于 定义 这 
种 二 值 型 变量 分 布 的 变量 z 被 称 为 分 对 数 logit) 。 


这 种 在 对 数 空间 里 预测 概率 的 方法 可 以 很 目 然 地 使 用 最 大 似 然 学 习 。 
为 用 于 最 大 似 然 的 代价 函数 是 一 low Ply | zx ) ， 代 价 函 数 中 的 log 抵 
消 了 sigmoid 中 的 exp。 如 果 没 有 这 个 效果 ，sigmoid 的 饱和 性 会 阻止 其 于 
杨 上 度 的 学 习 做 出 好 的 改进 。 我 们 使 用 最 大 似 然 来 学 习 一 个 由 sigmoid 参 
数 化 的 Bernoulli 分 布 ， 它 的 损失 函数 为 


J(0) = — log P(y | x) (6.24) 
= — loga((2y — 1)z) (6.25) 
= ¢((1 — 2y)z) (6.26) 


eS HE Se EF OS 3.107 PA Hee. OK R eK AVS BK softplus r 
数 的 形式 ， 我 们 可 以 看 到 它 仅 仪 在 (1-2y)z 取 绝对 值 非 党 大 的 儿 值 时 才 会 
人 饱和。 因此 饱和 只 会 出 现在 模型 已 经 得 到 正确 答 采 时 当 y 王 1 且 z 取 
非常 大 的 正 什 时， 或 者 y= 二 0 有 量 z 取 非常 小 的 负 什 上 时。 当 z 的 从 号 错 府 时 ， 
softplus 隙 数 的 变量 (1-2y)z 可 以 人 简化 为 |z | 。 当 | z | 变 得 很 大 并 且 z 的 
符 气 错误 时 ，softplus 函 数 渐 近 地 趋 问 于 它 的 变量 | z | 。 对 z 求 导 则 渐 近 
地 过问 于 sign(z)， 所 以 ， 对 于 极限 情况 下 极度 不 正确 鸭 z，softplus 函 数 
完全 不 会 收 缠 梯 上 度 。 这 个 性 质 很 有 用 ， 因 为 它 意 味 着 基于 梯度 的 学 习 可 
以 很 快 地 改正 错误 有 的 z。 


当 我 们 使 用 其 他 的 损失 函数 ， 例 如 均 方 误差 之 类 的 ， 损 失 困 数 束 会 在 
0G(Z) 饱 和 时 饱和 。sigmoid 激 活 函 数 在 z 取 非常 小 的 负 值 时 会 饮 和 到 0， 当 
z 取 非常 大 的 正 值 时 会 饱和 到 1。 这 种 情况 一 旦 发 生 ， 樟 虚 会 变 得 非 间 小 
以 至 于 不 能 用 来 学 习 ， 无 论 此 时 模型 给 出 的 是 正确 还 是 错误 的 答案 。 
此 ， 最 大 似 然 几乎 总 是 训练 sigmoid 输 出 单元 的 优选 方法 。 





理论 上 ，sigmoid 的 对 数 总 是 确 宅 和 有 限 的 ， 因 为 sigmoid 的 返回 值 总 是 
个 限制 在 开 区 则 (0，1〉 上 ， 而 不 是 使 用 整个 财 区 间 LO, 1] 的 有 效 概 
率 。 在 软件 实现 时 ， 为 了 避免 数值 问题 ， 最 好 将 负 的 对 数 似 然 写 作 z 的 
后 对 人/ IY XT Bo FF Bl TGF « 


6.2.2.3. “用 于 Multinoulli 输 出 分 布 的 softmax 单 元 


任何 时 候 ， 当 我 们 想 要 表示 一 个 具有 n 个 可 能 取 值 的 离散 型 随机 变量 的 
4y An, ABET LAE Asoftmaxehi žr. EAS LAA Esigmoideh AHH He, H 
+ sigmoid PAI al H Re aN 1B AY EATE o 


softmax K A sx fi HETK ae A a» RAN DAS TAR _E EZR i o 
EEFDE ae, softmax K an] ERA A BIE, Pd, RRITA 
要 在 某 个 内 部 变量 的 n 个 不 同 选 项 中 进行 选择 。 
在 二 值 型 变量 的 情况 下 ， 我 们 希望 计算 一 个 单独 的 效 

y= P(y =1]| x) (6.27) 


因为 这 个 数 需 要 处 在 0 和 1 之 则 ， 并 且 我 们 想 要 让 这 个 数 的 对 数 可 以 很 好 
地 用 于 对 数 似 然 的 基于 椰 度 的 优化 ， 因 而 我 们 选择 去 预测 为 外 一 个 数 
z = log P(y = 1 | x) o XRAM, WR y — AHE 
sigmoid PK AUF i] Bernoulli 4E © 


为 了 推广 到 具有 n 个 值 的 离散 型 变量 的 情况 ， 现在 需要 创造 一 个 向 量 V/ 

， 它 的 每 个 元 素 是 周一 Ply =2 | T) : BANAL EERE Y, TUR 
介 于 0 和 1 之 间 ， 还 要 使 得 整个 向 量 的 和 为 1， 使 得 它 表 示 一 个 有 效 的 概 

率 分 布 。 用 于 Bernoulli 分 布 的 方法 同样 可 以 推广 到 Multinoulli 分 布 。 首 

先 ， 线 性 层 预 测 了 未 归 一 化 的 对 数 概率 : 


z=W hib (6.28) 


其 中 = log P(y =i | a) 。softmax 函 数 然后 可 以 对 z 指 数 化 和 归 一 
化 来 获得 需要 的 V/ > Zs, softmax AHN 


softmax(z); = SETS (6.29) 
j EXPp(2; 


和 1logistic sigmoid 一 样 ， 当 使 用 最 大 化 对 数 似 然 训 练 softmax 来 输出 目标 
值 y 时 ， 使 用 指数 函数 工作 地 非 钊 好 。 这 种 情况 下 ， 我 们 外 要 最 大 化 
log P(y = i; z) = logsoftmax(z); 。 将 softmax 定 义 成 指数 


的 形式 是 很 自然 的 ， 因 为 对 ULIA 中 的 log 可 以 抵消 softmax 中 的 exp: 


log softmax(z); = z; — log + exp(z;) (6.30) 
和 (6.30) 中 的 第 一 项 表示 输入 z ; 总 是 对 代价 函数 有 直接 的 页 献 。 因 为 
一 项 不 会 饱和 ， 所 以 即使 z ; 对 式 (6. 30) 的 第 二 项 的 页 献 很 小 ， ie 
ase ashes, 当 最 大 化 对 数 似 然 时 ， — iz ; OER. me 


则 鼓励 所 有 的 z 被 压低 i Ei exp(z. 本 


有 一 个 直观 的 理解 ， 注 意 到 这 一 项 可 以 大 致 近 Er ax Z jo toi! 
news FAEM AW se 7) Fmax; z; 的 zy， cxp(z ，) 都 是 不 重要 的 。 我 们 能 从 
这 种 近似 中 得 到 的 直 和 千古， 人 负 对 数 似 然 代 价 函 数 忆 ee ae 
HAERA. MR IEMSRCABRA SsoftmaxtmAMA, MWA- , 
项 和 


log >, exp(2;) 7 R3 MAX; 一 2; 
项 将 大 致 抵消 。 这 个 样本 对 于 整体 训练 代价 贡献 很 小 ， 这 个 代价 主要 由 
其 他 未 被 正确 分 类 的 样本 产生 。 


到 目前 为 止 ， 我 们 只 讨论 了 一 个 例子 。 恕 体 来 说 ， 未 正则 化 的 最 大 似 然 
会 驱动 模型 去 尝 习 一 些 参 数 ， 而 这 些 参 数 会 驱动 softmax 函 数 来 预测 在 
训练 集中 观察 到 的 每 个 结束 的 比率 : 


| Jra 1 Lyo j) 一 和 六 47) 一 六 
ET: =z 


因为 最 大 似 然 是 一 致 的 佑 计量， 所 以 只 要 模型 族 能 够 表示 训练 的 分 布 ， 
这 就 能 你 证 有 友 生 。 在 实践 中 ， 有 限 的 模型 能 力 和 不 完美 的 优化 将 意味 看 


softmax(z(x;@)); = (6.31) 


模型 只 能 近似 这 些 比率 。 


对 数 似 然 之 外 的 许多 目标 函数 对 softmax 函 数 不 起 作用 。 有 具体 来 说 ， 那 
些 不 使 用 对 数 来 抵消 softmax 中 的 指数 的 目标 函数 ， 当 指数 函数 的 变量 
取 非 常 小 的 负 值 时 会 造成 梯度 消失 ， 从 而 无 法 学 习 。 特 别 是 平方 误 有 天， 
对 于 softmax 单 元 来 说 ， 它 是 一 个 很 兰 的 损失 函数 ， 即 使 模型 做 出 高 度 
可 信 的 不 正确 预测 ， 也 不 能 训练 模型 改变 其 输出 (Bridle，1990) 。 要 
理解 为 什么 这 些 损 失 函 数 可 能 失败 ， 我 们 需要 检查 softmax 了 浮 数 本 里 。 


像 sigmoid 一 样 ，softmax 激 活 函 数 可 能 会 饱和 。sigmoid 函 数 上 只 有 单个 输 
出 ， 当 它 的 输入 极 问 负 或 者 极 病 正 时 会 饱和 。 对 于 softmax 的 情况 ， 它 
有 多 个 输出 值 。 当 输入 值 之 间 的 差异 变 得 极 疡 时 ， 这 些 输出 值 可 能 饮 
和 。 当 softmax 饱 和 时 ， 基 于 softmax 的 许多 代价 函数 也 饱和 ， 除 非 它们 
能 够 转化 饱和 的 激活 函数 。 


为 了 说 明 softmax 困 数 对 于 输入 乙 间 差异 的 啊 应 ， 观 穴 到 当 对 所 有 的 输 
入 部 加 上 一 个 相同 第 数 时 softmax 的 输出 不 变 : 


softmax(z) = softmax(z + c) (6.32) 
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体 : 


softmax(z) = softmax(z — max %;) (6.33) 
l 


AR He Ja AIER AARI TE XT softmax A ZORIA RAR) BUR IRE 
即使 是 当 z 包 含 极 正 或 者 极 负 的 数 时 。 观 察 softmax 数 值 稳定 的 变 体 ， 可 
以 看 到 softmax 水 数 由 它 的 变量 偏离 max;z; 的 量 来 驱动 。 


当 其 中 一 个 输入 是 最 大 (Zi =max,z, ) 并 且 z ;远大 于 其 他 的 输入 时 ， 相 应 
的 输出 softmax(z) ; 会 饱和 到 1。 当 z ; 不 是 最 大 值 并 且 最 大 值 非常 大 时 ， 

相应 的 输出 softmax(z) ; 也 会 饱和 到 0。 这 是 sigmoid 单 元 饱和 方式 的 一 般 
化 ， 并 且 如 果 损 失 函 数 不 被 设计 成 对 其 进行 补偿 ， 那 么 也 会 造成 类 似 的 
学 习 困 难 。 


softmax PA 20H) 46 Bez AY 以 通过 两 种 方式 产生 。 最 稼 见 的 是 简单 地 使 神经 
网 络 较 时 的 层 输 出 z 的 每 个 元 系 ， 束 像 先前 描述 的 使 用 线性 层 


z 二 WALD 。 虽然 很 直观 ， 但 这 种 方法 是 对 分 布 的 过 度 参数 
化 。n 个 输出 总 和 必须 为 1 的 约束 意味 看 只 有 nr-1 个 参数 是 必要 的 ; 第 n 个 
概率 值 可 以 通过 1 减 去 前 面 n-1 个 概率 来 获得 。 因 此 ， 我 们 可 以 强制 要 求 
Z 的 一 个 元 素 是 固定 的 。 例 如 ， 我 们 可 以 要 求 z ， 二 0。 事 实 上 ， 这 正 古 
sigmoid 单 元 所 做 的 。 定 义 P(y = 1 | x) = o(z) 等 价 于 用 二 维 的 z 
以 及 z 1 二 0 来 定义 PP(y = 1 | x) = softmax(z), 。 无 论 是 n-1 
个 变量 偿 是 n 个 变量 的 方法 ， 都 描述 了 相同 的 概率 分 布 ， 但 会 产生 不 同 

的 笠 习 机 制 。 在 实践 中 ， 无 论 是 过 度 参 数 化 的 版 本 还 是 限制 的 版 本 者 很 
少 有 差别 ， 并 且 实 现 过 度 参 数 化 的 版 本 更 为 简单 。 


从 神经 科学 的 角 拔 看 ， 有 趣 的 是 认为 softmax 是 一 种 在 参与 其 中 的 单元 
之 间 形 成 竞争 的 方式 : softmax 输 出 总 是 和 为 1， 所 以 一 个 单元 的 值 增 加 
必然 对 应 大 其 他 单元 值 的 减少 。 这 与 被 认为 存在 于 皮质 中 相 邻 神经 元 间 
的 侧 抑 制 燃 似 。 在 极端 情况 下 “〈 当 最 大 的 a; 和 其 他 的 在 幅度 上 差异 很 大 
时 ) ， 它 变 成 了 赢 者 通 吃 (winner-take-al) 的 形式 〈 其 中 一 个 输出 接 
近 1， 其 他 的 接近 0) 。 


“softmax” 的 名 称 可 能 会 让 人 产生 困惑 。 这 个 函数 更 接近 于 argmax 孙 数 而 
不 是 max 图 数 。“soft” 这 个 术语 来 源 于 softmax 函 数 是 连续 可 微 

的 。“argmax” 闲 数 的 结果 表示 为 一 个 one-hot 巾 量 〈( 只 有 一 个 元 系 为 1， 
RICA ES AON le) ， 不 是 连续 和 可 徽 的 。softmax 国 数 因 此 提供 了 
argmax 的 “软化 ”版 本 。max 函 数 相应 的 软化 版 本 是 softmax(z) > 过 。 
可 能 最 好 是 把 softmax 函 数 称 为 “softargmax”， 但 当前 名 称 已 经 是 一 个 根 
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6.2.2.4 ”其 他 的 输出 类 型 

之 前 摘 述 的 线性 、sigmoid 和 softmax 输 出 单元 是 最 间 见 的 。 神 经 网 络 可 
以 推广 到 我 们 希望 的 几乎 任何 种 类 的 输出 技 。 最 大 似 然 原则 给 如 何 为 几 
平 任何 种 类 的 输出 层 设 计 一 个 好 的 代价 函数 提供 了 指导 。 


一 般 而 言 ， 如 果 我 们 定义 了 一 个 条 件 分 布 p(y|x; 9)， 最 大 似 然 原 则 建 
议 我 们 使 用 -logp (y |x ; 6) 作为 代价 函数 。 


一 般 来 说 ， 我 们 可 以 认为 神经 网 络 表示 函数 f(x ; 9 ) 。 这 个 函数 的 输出 


不 是 对 y NEETU. AR. f (aes) = w 提供 了 y 分 布 的 参数 。 
我 们 的 损失 函数 就 可 以 表示 成 一 log p(y; w(ax)) - 


例如 ， 我 们 想 要 学 习 在 给 定 x 时 ，y 的 条 件 电 斯 分 布 的 方 牵 。 人 简单 情况 
F, Džo l 是 一 个 常数 ， 此 时 有 一 个 解析 表达 式 ， 这 是 因为 方差 的 最 
KVM the Mie Wy SE a PO FE. p 

计算 上 代价 更 加 高 但 是 不 需要 写 特 殊 情 况 代 但 的 方法 是 简单 地 将 方 雪 作 
为 分 布 p (y |x ) 的 其 中 一 个 属性 ， 这 个 分 布 由 w = f(a; @) 控制 。 

负 对 数 似 然 一 ]0g p(y; w(x) 将 为 代价 函数 提供 一 个 必要 的 合适 项 
来 使 优化 过 程 可 以 逐渐 地 学 到 方差 。 在 标准 差 不 依赖 于 输入 的 简单 情况 
下 ， 我 们 可 以 在 网 络 中 创建 一 个 了 十 接 复制 到 w 中 的 新 参数 。 这 个 新 参 


数 可 以 是 o 本 里 ， 或 者 可 以 是 表示 o“ 的 参数 v， 或 者 可 以 是 表示 L 的 


参数 B， 取 决 于 我 们 怎样 对 分 布 参 数 化 。 我 们 可 能 希望 檬 型 对 不 同 的 x 
值 预测 出 y 不 同 的 方 达 。 这 被 称 为 异 方 过 (heteroscedastic) 模型 。 在 
异 方 关 情况 下 ， 我 们 简单 地 把 方 竺 指定 为 F(x ; 9 ) 其 中 一 个 输出 值 。 实 
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diag (3) (6.34) 


这 个 公式 适用 于 梯度 下 降 ， 因 为 由 有 参数 化 的 高 斯 分 布 的 对 数 似 然 的 公 
RERO, 的 乘法 和 ]og /3; 的 加 法 。 乘 法 、 加 法 和 对 数 运算 的 梯度 
表现 良好 。 相 比 之 下 ， 如 果 我 们 用 方差 来 参数 化 输出 ， 我 们 需要 用 到 除 
法 。 除 法 函数 在 零 附近 会 变 得 任意 陡峭 。 虽 然 大 梯度 可 以 帮助 学 习 ， 但 
任意 大 的 梯度 通常 导致 不 稳定 。 如 果 我 们 用 标准 差 来 参数 化 输出 ， 对 数 
似 然 仍 然 会 涉及 除法 ， 并 且 还 将 涉及 平方 。 通 过 平方 运算 的 梯度 可 能 在 
零 附 近 消 失 ， 这 使 得 学 习 被 平方 的 参数 变 得 困难 。 无 论 使 用 的 是 标准 

差 、 方 差 还 是 精度 ， 我 们 必须 确保 高 斯 分 布 的 协 方差 矩阵 是 正定 的 。 因 
为 精度 矩阵 的 特征 值 是 协 方差 矩阵 特征 值 的 倒数 ， 所 以 这 等 价 于 确保 精 
度 矩 阵 是 正定 的 。 如 果 我 们 使 用 对 角 和 矩阵 ， 或 者 是 一 个 常数 乘 以 单位 矩 
阵 中 ， 那 么 需要 对 模型 输出 强加 的 唯一 条 件 是 它 的 元 素 都 为 正 。 如 果 候 
设 a 是 用 于 确定 对 角 精 度 的 模型 的 原始 激活 ， 那 么 可 以 用 softplus 函 数 来 
获得 正 的 精度 向 量 : B 二 C(@) 。 这 种 相同 的 策略 对 于 方差 或 标准 差 
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学 习 一 个 比 对 角 和 矩阵 具有 更 丰富 结构 的 协 方差 或 者 精度 矩阵 是 很 少见 
的 。 如 果 协 方差 矩阵 是 “ 满 的 "和 有 条 件 的 ， 那 么 参数 化 的 选择 就 必须 要 
保证 预测 的 协 方差 矩阵 是 正定 的 。 这 可 以 通过 写成 

D(x) = B(x)B' (x) 来 实现 ， 这 里 R 是 一 个 无 约束 的 方 阵 。 如 果 
矩阵 是 满 秩 的 ， 那 么 一 个 实际 问题 是 计算 似 然 的 代价 很 高 ， 计 算 一 个 
dxd 的 矩阵 的 行列 式 或 者 太 (L) 的 逆 (或 者 等 价 地 并 且 更 常用 地 ， 对 它 
REA) WERE B (ac) 的 特征 值 分 解 ) 需要 O(d3) 的 计算 量 。 


我 们 经 常 想 要 执行 多 峰 回 归 (multimodal regression) ， 即 预测 条 件 分 
布 p (y|x ) 的 实 值 ， 该 条 件 分 布 对 于 相同 的 x BEE y 空间 中 有 多 个 不 同 
的 峰值 。 在 这 种 情况 下 ， 融 斯 混合 是 输出 的 目 然 表示 (Jacobs et al. , 

1991; Bishop, 1994) 。 将 高 斯 混合 作为 其 输出 的 神经 网 络 通 负 被 称 为 
混合 密度 网 络 (mixture density network) 。 具 有 n 个 分 量 的 高 斯 混合 输 


出 由 下 面 的 条 件 分 布 定义 : 
ply | £) = $ ple =i | £)N (y; w(x), B(x) (6.35) 
i=1 


神经 网 络 必须 有 3 个 输出 :定义 p(C = 7 | a) 的 向 量 ， 对 所 有 的 给 出 


uO (ar) 的 矩阵 ， 以 及 对 所 有 的 给 出 号 中 (jp) 的 张 量 。 这 些 输出 必须 
满足 不 同 的 约束 : 


(1) 混合 组 件 p( Cc — 7 | T ) : 它们 由 湾 变 量 @-cRS, En dA IA 
组 件 上 形成 Multinoulli 分 布 。 这 个 分 布 明 党 可 以 由 n 维 辣 量 的 softmax 来 
获得 ， 以 确保 这 些 输出 是 正 的 并 且 和 为 1。 


D 均值 J.( 站 (zw) : 它们 指明 了 与 第 个 高 斯 组 件 相关 联 的 中 心 或 者 均 
值 ， 并 且 是 无 约束 的 (通常 对 于 这 些 输出 单元 完全 没有 非 线性 ) 。 如 果 
y 是 个 d 维 向 量 ， 那 么 网 络 必须 输出 一 个 由 n 个 这 种 d 维 向 量 组 成 的 nxd 的 
矩阵 。 用 最 大 似 然 来 学 习 这 些 均值 要 比 学 习 只 有 一 个 输出 模式 的 分 布 的 
均值 稍稍 复杂 一 些 。 我 们 只 想 更 新 那个 真正 产生 观测 数据 的 组 件 的 均 

值 。 在 实践 中 ， 我 们 并 不 知道 是 哪个 组 件 产生 了 观测 数据 。 负 对 数 似 然 
表达 式 将 每 个 样本 对 每 个 组 件 的 贡献 进行 赋 权 ， 权 重 的 大 小 由 相应 的 组 


件 产 生 这 个 样本 的 概率 来 决定 。 


(3) WADO (ae) : 它们 指明 了 每 个 组 件 i 的 协 方差 矩阵 。 和 学 习 单 
个 高 斯 组 件 时 一 样 ， 我 们 通常 使 用 对 角 矩 阵 来 避免 计算 行列 式 。 和 学 习 
混合 均值 时 一 样 ， 最 大 似 然 是 很 复杂 的 ， 它 需要 将 每 个 点 的 部 分 责任 分 
配给 每 个 混合 组 件 。 如 果 给 定 了 混合 模型 的 正确 的 负 对 数 似 然 ， 梯 度 下 
降 将 自动 地 遵循 正确 的 过 程 。 


有 报告 说 ， 基 于 材 上 度 的 优化 方法 对 于 混合 条 件 高 斯 〈 作 为 神经 网 络 的 输 
出 ) ARB DASE, Hoe A Aw Rie BRUT AE) 可 能 是 数值 不 
稳定 的 《〈 当 茶 个 方 关 对 于 特定 的 实例 变 得 非 名 小时， 会 导致 非常 大 的 柿 
E) 。 一 种 解决 方法 是 梯度 截 靳 (clip ”gradient) (参见 第 10.11.1 
节 ) ， 另 一 种 解雇 方法 是 局 发 式 缩放 李 度 (Murray and Larochelle, 
2014) 。 


高 斯 混合 输出 在 语音 生成 模型 (Schuster, 1999) 和 物理 运动 

(Graves, 2013) 中 特别 有 效 。 混 合 密度 策略 为 网 络 提 供 了 一 种 方法 来 
表示 多 种 输出 模式 ， 并 且 控 制 输出 的 方 震 ， 这 对 于 在 这 些 实 数 域 中 获得 
高 质量 的 结果 是 至 关 重 要 的 。 混 合 密度 网 络 的 一 个 实例 如 图 6.4 所 示 。 


一 般 地 ， 我 们 可 能 希望 继续 对 包含 更 多 变量 的 、 更 大 的 癌 量 y RES, 
并 在 这 些 输 出 变量 上 施加 更 多 更 丰 晤 的 结构 。 例 如 ， 可 能 布 望 神经 网 络 
输出 字符 序列 形成 一 个 句子 。 在 这 些 情况 下 ， 我 们 可 以 继续 使 用 最 大 似 
然 原理 应 用 到 我 们 的 模型 p(y; (ZE )) 上 ， 但 用 来 描述 y 的 模型 会 变 
得 非 党 复杂， 超出 了 本 章 的 范畴 。 第 10 章 朱 述 了 如 何 使 用 循环 神经 网 络 
来 定义 这 种 序列 上 的 和 模型。 本 书 第 3 部 分 摘 述 了 对 任意 概 潜 分 布 进行 建 
PREY RDA o 





图 6.4 ”从 具有 混合 密度 输出 层 的 神经 网 络 中 抽取 的 样本 。 输 入 x 从 均匀 分 布 中 采样 ， 输 出 y 从 p 
model ( yx) 中 采样 。 神 经 网 络 能 够 学 习 从 输入 到 输出 分 布 的 参数 的 非 线性 映射 。 这 些 参数 包括 
控制 3 个 组 件 中 的 哪 一 个 将 产生 输出 的 概率 ， 以 及 每 个 组 件 各 自 的 参数 。 每 个 混合 组 件 都 是 高 其 
分 布 ， 具 有 预测 的 均值 和 方差 。 输 出 分 布 的 这 些 方面 都 能 够 相对 输入 x 变化 ， 并 且 以 非 线性 的 方 
式 改变 


6.3 aie 7c 


到 目前 为 止 ， 我们 集中 讨论 了 神经 网 络 的 设计 选择 ， 这 对 于 使 用 基于 榜 
及 的 优化 方法 来 训练 的 大 多 数 参数 化 机 右 和 学 习 模 型 部 是 通用 的 。 现 在 我 
们 转 同 一 个 前 馈 神 经 网 络 独 有 的 问题 ， 访 如何 选 择 隐 藏 单元 的 类 型 ， 这 
些 隐 藏 早 元 用 在 模型 的 隐藏 层 中 。 


隐藏 里 元 的 设计 是 一 个 非常 活 路 的 研究 领域 ,并 且 还 没有 许多 明确 的 指 
导 性 理论 原则 。 


整流 线性 单元 是 隐藏 单元 极 好 的 默认 选 撞 。 许 多 其 他 关 型 的 隐藏 单元 也 
是 可 用 的 。 决 定 何 时 使 用 哪 种 类 型 的 隐藏 单元 古 困难 的 事 ( 尺 官 整 法 线 
性 单元 通常 是 一 个 可 接受 的 选择 ) 。 我 们 这 里 描述 对 于 每 种 隐藏 单元 的 
一 些 基 本 和 耳 党 。 这 些 卫 沉 可 以 用 来 建议 我 们 何 时 答 试 一 些 早 元 。 通 妾 不 
可 能 预先 预测 出 哪 种 隐藏 里 元 工作 得 最 好 。 设 计 过 程序 满 了 试验 和 错 

误 ， 爷 直 筑 认为 菏 种 隐藏 单元 可 能 表现 展 好， 然后 用 它 组 成 神经 网 络 进 
行 训练 ， 最 后 用 验证 集 来 评估 它 的 性 能 。 


这 里 列 出 的 一 些 隐 首 单 元 可 能 并 不 是 在 所 有 的 输入 点 上 都 是 可 微 的 。 例 
如 ， 整 流 线 性 单元 g(z) 二 max{0,z} 在 z 二 0 处 不 可 微 。 这 似乎 使 得 g 对 于 基 





PRB REN RZ TCR. FESR, BEBE BBE EE NL ae Se Od BAY IK 
Le IMAL EG UE © HO Vik A ae ZS PM] 2 BR EAU FS AN IK SB AN BP RAY 
局 部 最 小 值 ， 而 是 仅 仅 显 赦 地 减 小 它 的 信 ， 如 图 4.3 所 示 。 这 些 想 法 会 
在 第 8 革 中 进一步 插 述 。 因 为 我 们 不 青 期 望 训 练 能 够 实际 到 达 柳 度 为 0 
的 态 ， 所 以 代价 函数 的 最 小 值 对 应 于 标 度 未 定义 的 后 是 可 以 接受 的 。 不 
可 微 的 隐 天 单元 通 毅 只 在 少数 点 上 不 可 徽 。 一 般 来 说， 函数 g(z) 共 有 磊 
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为 罕 邻 在 z 右 边 的 函数 的 冬 紊 。 只 有 妆 函 数 在 z 处 的 左 叶 数 和 石 导数 部 有 
定义 并 且 相 等 时 ， 函 数 在 z 点 处 才 是 可 徽 的 。 神 经 网 络 中 用 到 的 函数 通 
党 对 左 导 数 和 石 导数 都 有 定义 。 在 g(z) 二 max{0,z} 的 情况 下 ， 在 z 二 0 处 
的 左 导数 是 0， 石 导数 是 1。 神 经 网 络 训 练 的 软件 实现 通常 返回 左 导数 或 
右 叶 数 的 其 中 一 个 ， 而 不是 报 各 导数 霖 定义 或 产生 一 个 错误 。 这 可 以 退 
过 观察 到 在 数字 计算 机 上 基于 椰 度 的 优化 吕 古 会 受到 数值 误 友 的 影响 来 
局 友 式 地 给 出 理由 。 当 一 个 函数 被 要 求 计 算 g(0) 时 ， 捕 层 值 真 正 为 0 是 不 
太 可 能 的 。 相 对 的 ， 它 可 能 是 被 舍 入 为 0 的 一 个 小 量 厂 。” 。 在 某 些 情况 
下 ， 理 论 上 有 蝎 好 的 理由 ， 但 这 些 通 第 对 神经 网 络 训练 并 不 适用 。 重 要 
的 是 ， 在 实践 中 ， 我 们 可 以 放心 地 忽略 下 面 摘 述 的 隐 天 单 元 激活 函数 的 
AN FY VE o 


除非 另 有 说 明 ， 大 多 数 的 隐藏 单元 都 可 以 描述 为 接受 输入 向 量 x ， 计 算 
仿 射 变换 z 一 全 7T + b ， 然 后 使 用 一 个 逐 元 素 的 非 线性 函数 g(z)。 大 
多 数 隐藏 单元 的 区 别 仅 仅 在 于 激活 函数 g(z) 的 形式 。 


6.3.1 整流 线性 单元 及 其 扩展 
整流 线性 单元 使 用 激活 图 数 g(Z) 王 max{0,z}。 


整流 线性 单元 易于 优化 ， 因 为 它们 和 线性 单元 非常 类 似 。 线 性 单元 和 整 
流 线性 单元 的 唯一 区 别 在 于 整流 线性 单元 在 其 一 半 的 定义 域 上 输出 为 
零 。 这 使 得 只 要 你 泊 线 性 单元 处 于 激活 状态， 它 的 导数 都 能 你 持 较 大 。 
它 的 栎 度 人 不 但 大 而 且 一 人 怪 。 整 流 操 作 的 三 阶 寻 数 几 乎 处 处 为 0， 并 且 在 
整流 线性 单元 处 于 油 活 状态 时 ， 它 的 一 阶 寻 数 处 处 为 1。 这 意味 看 相 比 
于 引入 二 阶 效应 的 激活 函数 来 说 ， 它 的 梯度 方 同 对 于 学 习 来 次 更 加 有 
用 。 


整流 线性 单元 通 音 作用 于 仿 射 变换 之 上 : 


h=aW z+b) (6.36) 


当初 始 化 仿 射 变换 的 参数 时 ， 可 以 将 b 的 所 有 元 系 设 置 成 一 个 小 的 正 
值 ， 例 如 0.1。 这 使 得 整流 线性 单元 很 可 能 初始 时 束 对 训练 集中 的 大 多 
数 输入 呈现 油 活 状态 ， 并 且 允 许 导 数 通 过 ，。 


有 很 多 整流 线性 单元 的 扩展 存在 。 大 多 数 这 些 扩展 的 表现 比 得 上 整流 线 
性 里 元 ， 并 且 侦 尔 表现 得 更 好 。 


整流 线性 单元 的 一 个 缺陷 是 它们 不 能 通过 基于 梯度 的 方法 学 习 那 些 使 它 
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a he. h; 一 glz, Qt ); 一 max(0, Zi) T Qi min (0, Sg) - É 
对 值 整流 (absolute value rectification) 固定 a ;三 -1 来 得 到 g(zZ)= | z 
| 。 它 用 于 图 像 中 的 对 象 识 别 (Jarrett et al. , 2009a) ， 其 中 寻找 在 输 
入 照明 极 性 反 转 下 不 变 的 特征 是 有 意义 的 。 整 流 线 性 单元 的 其 他 扩展 比 
XMH Z. Pimm (Leaky ReLU) (Maas et al. , 

2013) 将 a ; 回 定 成 一 个 类 似 0.01 的 小 值 ， 参 数 化 整流 线性 单元 
(parametric ReLU) 或 者 PReLU 将 a ; 作为 学 习 的 参数 (He et al. , 

2015) 。 


maxout 单 元 (maxout unit) (Goodfellow et al. ，2013a) 进一步 扩展 了 
整流 线性 单元 。maxout 蛙 元 将 z 划 分 为 每 组 具有 kk 个 值 的 组 ， 而 不 是 使 用 
作用 于 每 个 元 素 的 冰 数 g(z)。 每 个 maxout 早 元 则 输出 每 组 中 的 最 大 元 
A: 

a=); 一 marz (6.37) 

jeG) | 

KEGU) 是 组 i 的 输入 索引 集 {(2 —1)k+1,--- ik} 。 这 提供 
了 一 种 方法 来 学 习 对 输入 Xx 衬 间 中 多 个 方 同 啊 应 的 分 段 线性 函数 。 
maxout 单 元 可 以 学 习 有 具有 多 达 k 上 段 的 分 段 线 性 的 上 同济 数 。maxout 早 元 因 


此 可 以 视 为 学 习 激 活 函 数 本 身 ， 而 不 仅仅 是 单元 之 间 的 关系 。 使 用 足够 
大 的 k，maxout 单 元 可 以 以 任意 的 精确 度 来 近似 任何 凸 函 数 。 特 别 地 ， 


AA PAR maxoutlx A DA J SOWA SAB AA x 的 函数 ， 这 些 
传统 层 可 以 使 用 整流 线性 激活 函数 、 绝 对 值 整流 、 渗 漏 整 流 线 性 单元 或 
参数 化 整流 线性 单元 ， 或 者 可 以 学 习 实 现 与 这 些 必 不 同 的 函数 。maxout 
层 的 参数 化 当然 也 将 与 这 些 层 不 同 ， 所 以 即使 是 maxout 和 学习 去 实现 和 其 
他 种 类 的 层 相同 的 x 的 函数 这 种 情况 下 ， 学 习 的 机 理 也 是 不 一 样 的 。 


每 个 maxout 单 元 现在 由 k 个 权重 同 量 来 参数 化 ， 而 不 仅仅 是 一 个 ， 所 以 
maxout 单 元 通 第 比 整流 线性 单元 需要 更 多 的 正则 化 。 如 有 果 训 练 集 很 大 并 
且 每 个 单元 的 块 数 保持 很 低 的 话 ， 它 们 可 以 在 没有 正则 化 的 情况 下 工作 
得 不 错 (Cai et al. ，2013) 。 


maxout 单 元 还 有 一 些 其 他 的 优点 。 在 菏 些 情况 下 ， 归 求 更 少 的 参数 可 以 
获得 一 些 统计 和 计算 上 的 优点 。 且 体 来 议 ， 如 末 由 nm 个 不 同 的 线性 过 涯 
希 描 述 的 特征 可 以 在 不 损失 信息 的 情况 下 ， 用 每 一 组 k 个 特征 的 最 大 值 
来 概括 的 话 ， 那 么 下 一 层 可 以 获得 K 倍 更 少 的 权重 数 。 


因为 每 个 单元 由 多 个 过 滤器 驱动 ，maxout 单 元 具有 一 些 了 元 余 来 帮助 它们 
抵抗 一 种 被 称 为 灾难 遗 态 。 (catastrophic forgetting) 的 现象 ， 这 个 现象 
是 说 神经 网 络 态 记 了 如 何 执行 它们 过 去 训练 的 任务 (Goodfellow et al. 
》 2014a ) o 


整流 线性 单元 和 它们 的 这 些 扩展 都 是 基于 一 个 原则 ， 那 束 是 如 果 它 们 的 
行为 更 接近 线性 ， 那 么 模型 更 容易 优化 。 使 用 线性 行为 更 容易 优化 的 一 
般 性 原则 同样 也 适用 于 除 次 度 线性 网 络 以 外 的 情景 。 循 环 网 络 可 以 从 序 
列 中 学 习 并 产生 状态 和 输出 的 序列 。 当 训练 它们 时 ， 需 要 通过 一 些 时 间 
步 来 传播 信息 ， 当 其 中 包含 一 些 线 性 计算 〈 有 共有 大 小 接近 1 的 菜 些 方 回 
导数 ) 时 ， 这 会 更 容易 。 作 为 性 能 最 好 的 循环 网 络 结构 之 一 ，LSTM 通 
过 求 和 在 时 间 上 传播 信息 ， 这 是 一 种 特别 直观 的 线性 激活 。 它 将 在 第 
10.10 市 中 进一步 讨论 。 


6.3.2 logistic sigmoid 与 双 曲 正切 函数 


在 引入 整 法 线性 单元 之 前 ， 大 多 数 神经 网 络 使 用 logistic ” sigmoid 激活 也 
数 
glz) = (2) (6.38) 


或 者 是 双 曲 正切 激活 函数 
g(z) = tanh(z) (6.39) 
这 些 激活 函数 紧密 相关 ， 因 为 tanh(z) = 20(2z) — 1. 


我 们 已 经 看 过 sigmoid 蛙 元 作为 输出 捍 元 用 来 预测 二 值 型 变量 取 值 为 1 的 
概率 。 与 分 段 线性 单元 不 同 ，sigmoid 单 元 在 其 大 部 分 定义 域内 都 饱和 

当 z 取 绝对 值 很 大 的 正 值 时 ， 它 们 饱和 到 一 个 蜗 值 ， 当 z 取 绝对 值 很 
大 的 负 值 时， 它们 饱和 到 一 个 低 值 ， 并 且 仪 仅 当 z 接 近 0 时 它们 才 对 输入 
强烈 敏感 。sigmoid 单 元 的 广泛 饱和 性 会 使 得 基于 梯度 的 学 习 变 得 非常 

困难 。 因 为 这 个 原因 ， 现 在 不 或 励 将 它们 用 作 前 饭 网 络 中 的 隐藏 单 元 。 

当 使 用 一 个 合适 的 代价 函数 来 抵消 sigmoid 的 饱和 性 时 ， 它 们 作为 输出 

单元 可 以 与 基于 梯度 的 学 习 相 兼 容 。 


当 必 须要 使 用 sigmoid 诉 活 图 数 时 ， 双 曲 正 切 激 活 了 图 数 通 利 要 比 logistic 
sigmoid AH. FE 


tanh(0) = 0 而 o(0) = 5 sexe 





它 更 像 是 单位 图 数 。 因 为 tanh 在 0 附近 与 单位 图 数 关 似 ， 训 练 深层 神经 
H = w tanh(U'tanh(V' «)) 类 似 于 训练 一 个 线性 柑 型 
二 w UV la ， 只 要 网 络 的 激活 能 够 被 保持 地 很 小 。 这 使 得 训 
练 tanh 网 络 更 加 容易 。 


sigmoid 激 活 函 数 在 除了 前 饥 网 络 以 外 的 情 孙 中 更 为 名 抑 。 循 环 网 络 、 

主 多 概 座 模型 以 及 一 些 日 编码 占有 一 些 额 外 的 要 求 使 得 它们 不 能 使 用 分 
Beek PEs KA, FFA sigmoid cE AAR S| A, SP ERE 
和 性 的 问题 。 


6.3.3 ”其 他 隐藏 蛙 元 
也 存在 许多 其 他 种 类 的 隐藏 单元 ， 但 它们 并 不 常用 。 
一 般 来 说 ， 很 多 种 类 的 可 微 函数 都 表现 得 很 好 。 许 多 未 发 布 的 激活 函数 


己 洲 行 的 油 活 函数 表现 得 一 样 好 。 为 了 提供 一 个 具体 的 例子 ， 作 痢 在 
MNIST 数 据 集 上 使 用 凡 = cos( Wx +b) 测试 了 一 个 前 馈 网 络 ， 


FIRS SDF 1% Wie, ROBY PA CATR ot IY KORIE AR 
HER. FEB BORN Ot FASE ACHAT], E eS WUE E A TR] EG K 

数 ， 并 且 会 肥 现 许多 标准 方法 的 变 体 表现 非常 好 。 这 意味 着 ， 通 利 新 的 
隆 闫 单元 类 型 只 有 在 和 被 明确 证 明 能 够 提供 显 赦 改进 时 才 会 被 及 布 。 新 的 
隐藏 单元 类 型 如 末 与 已 有 的 隐藏 单元 表现 大 至 相当 ， 那 么 它们 是 非 第 凋 
见 的 ， 不 会 引起 别人 的 兴趣 。 


列 出 文献 中 出 现 的 所 有 隐藏 单 元 类 型 是 不 切实 际 的 。 我 们 只 对 一 些 特别 
有 用 和 独特 的 类 型 进行 强调 。 


其 中 一 种 是 完全 没有 激活 函数 g(z)。 也 可 以 认为 这 是 使 用 单位 函数 作为 
激活 函数 的 情况 。 我 们 已 经 看 过 线性 单元 可 以 用 作 神 经 网 络 的 输出 。 它 
也 可 以 用 作 隐 藏 单 元。 如 果 神 经 网 络 的 每 一 层 都 仅 由 线性 变换 组 成 ， 那 
么 网 络 作为 一 个 整体 也 将 是 线性 的 。 然 而 ， 神 经 网 络 的 一 些 层 是 纯 线 性 
也 是 可 以 接受 的 。 考 虑 具有 n 个 输入 和 p 个 输出 的 神经 网 络 层 

h 二 g( WW ' zw 十 b)。 我 们 可 以 用 两 层 来 代替 它 ， 一 层 使 用 权重 算 阵 UU 
， 另 一 层 使 用 权重 矩阵 V 。 如 果 第 一 层 没 有 激活 函数 ， 那 么 我 们 对 基于 
W 的 原始 层 的 权重 矩阵 进行 因 式 分 解 。 分 解 方法 是 计算 
h = 二 g(V U z+ 十 b)。 如 果 U 产 生 了 gq 个 输出 ， 那 么 U 和 V 一 起 仅 
包含 (n 十 p)q 个 参数 ， 而 W 包含 np 个 参数 。 如 果 q 很 小 ， 这 可 以 在 很 大 程 
度 上 节省 参数 。 这 是 以 将 线性 变换 约束 为 低 秩 的 代价 来 实现 的 ， 但 这 些 
低 秩 关 系 往往 是 足够 的 。 线 性 隐藏 单元 因此 提供 了 一 种 减少 网 络 中 参数 
数量 的 有 效 方法 。 


softmax 单 元 是 另外 一 种 经 利用 作 输 出 的 单元 〈 如 第 6.2.2.3 节 中 所 摘 述 
的 ) ， 但 有 时 也 可 以 用 作 隐 天 单元 。softmax 单 元 很 自然 地 表示 具有 k 个 
可 能 值 的 离散 型 随机 变量 的 概率 分 布 ， 所 以 它们 可 以 用 作 一 种 开关 。 这 
些 类 型 用 隐藏 早 元 通常 仪 用 于 明确 地 学 习 操 作 内 存 的 高 级 结构 中 ， 将 在 
第 10.12 节 中 描述 。 
其 他 一 些 第 见 的 隐藏 单元 类 型 包括 : 

o ÍT [a] Ze PA AL (radial basis function, RBF) : 

h; = exp -去 W.; 一 x|?) 。 这 个 函数 在 x 接近 


模板 W, ;时 更 加 活跃 。 因 为 它 对 大 部 分 x 都 饱和 到 0， 因 此 很 难 优 








化 。 
e softplus PĀ: gla) = C(a) = log(1 十 e") 。 这 是 整流 线 
性 单元 的 平滑 版 本 ， 由 Dugas etal. (2001) 引入 用 于 函数 近似 ， 由 
Nair and Hinton (2010a) 引入 用 于 无 回 概 对 模型 的 条 件 分 布 。 
Glorot et al. (2011a) 比较 了 softplus 和 整流 线性 单元 ， 发 现 后 者 的 
结果 更 好 。 通 常 不 鼓励 使 用 softplus 函 数 。softplus 表 明 隐 藏 单元 类 
型 的 性 能 可 能 是 非常 反 下 筑 的 因为 它 处 处 可 导 或 者 因为 它 不 完 
全 饱和 ， 人 人们 可 能 希望 它 其 有 优 于 整流 线性 单元 的 点 ， 但 根据 经 验 
来 看 ， 它 并 没有 。 
TEXN H IE WJ pki Chard tanh) : 它 的 形状 和 tanh 以 及 整流 线性 单元 
RAW, (eRe, Ese At, g(a)=max(-1, min(1,a)). 
它 由 Collobert (2004) 引入 。 


隐藏 单元 的 设计 仍然 古 一 个 活跃 的 研究 领域 ， 许 多 有 用 的 隐藏 持 元 类 型 
VIA FEA 


6.4 ”架构 设计 


神经 网 络 设计 的 万 一 个 关键 点 是 确定 它 的 架构 。 欢 构 Carchitecture) 一 
词 是 指 网 络 的 整体 结构 : 它 应 该 具有 多 少 单元 ， 以 及 这 些 单元 应 该 如 何 
连接 。 


大 多 数 和 神经 网 络 被 组 织 成 称 为 层 的 竺 元 组 。 大 多 数 神 经 网 络 架 构 将 这 些 
层 布 置 成 链 式 结构 ， 其 中 每 一 层 都 是 前 一 层 的 函数 。 在 这 种 结构 中 ， 第 
一 层 由 下 式 给 出 : 





pe g (wT. 二 50) ) (6.40) 
第 二 层 由 
h?) = g® (WOTRO i B®) (6.41) 


给 出 ， 以 此 类 推 。 


在 这 些 链 式 架构 中 ， 主 要 的 淋 构 大 虑 是 选择 网 络 的 深度 和 每 一 层 的 宽 
度 。 我 们 将 会 看 到 ， 即 使 只 有 一 个 隐 志 层 的 网 络 也 足够 适应 训练 集 。 更 
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6.4.1 ”万 能 近似 性 质 和 深度 


线性 模型 ， 通 过 和 窃 阵 乘法 将 特征 映射 到 输出 ， 顾 名 中 义 ， 仅 能 表示 线性 
疯 数 。 它 具有 易于 训练 的 优点 ， 因 为 当 使 用 线性 模型 时 ， 许 多 损失 函数 
会 吐出 凸 优化 问题 。 可 惜 的 是 ， 我 们 经 党 布 望 我 们 的 系统 学 习 非 线性 函 
数 。 


乍 一 看 ， 可 能 认为 学 习 非 线性 冰 数 十 要 为 我 们 想 要 学 习 的 那 种 非 线 性 专 
门 设计 一 类 模型 族 。 革 运 的 是 ， 有 具有 隐 医 层 的 前 饥 网 络 提 供 了 一 种 万 能 
近似 框 染 。 具 体 来 说 ， 万 能 近似 定理 (universal approximation 
theorem) (Hornik et al. , 1989; Cybenko, 1989) 表明 ， 一 个 前 馈 神 
经 网 络 如 采 有 共有 线性 输出 层 和 至少 一 层 具 有 任何 一 种 “ 挤 压 ”性质 的 激活 
国 数 《例如 logistic sigmoid RAZO 的 隐 猎 层 ， 只 要 给 予 网 络 足 够 数 
量 的 隐 世 单元 ， 它 可 以 以 任意 的 精度 来 近似 任何 从 一 个 有 限 维 空间 到 兄 
一 个 有 限 维 空间 的 Borel 可 测 函 数 。 前 饶 网 络 的 导数 也 可 以 任意 好 地 来 
近似 函数 的 导数 (Hornik et al. , 1990) 。Borel 可 测 的 概念 超出 了 本 书 
的 范畴 。 对 于 我 们 想 要 实现 的 目标 ， 只 需要 知道 定义 在 | 委 宛 WA FA 
集 上 的 任意 连续 函数 是 Borel 可 测 的 ， 因 此 可 以 用 神经 网 络 来 近似 。 神 
经 网 络 也 可 以 近似 从 任何 有 限 维 离 效 空 间 映 射 到 男 一 个 的 任意 函数 。 里 
然 原 始 定理 最 初 以 时 有 特殊 激活 函数 的 单元 的 形式 来 措 述 ， 这 个 激活 函 
数 当 变量 取 绝 对 值 非常 大 的 正 值 和 负 值 时 都 会 人 锣 和 ， 万 能 近似 定理 也 已 
经 侯 证 明 对 于 更 广泛 类 别 的 沿 活 冰 数 也 是 适用 的 ， 其 中 整 包 括 现 在 常用 
的 整流 线性 单元 (Leshno etal., 1993) . 


万 能 近似 定理 意味 看 无 论 我 们 试图 学 习 什 么 冰 数 ， 我 们 知道 一 个 大 的 

MLP 一 定 能 够 表示 这 个 函数 。 然 而 ， 我 们 不 能 保证 训练 算法 能 够 学 得 这 
个 函数 。 即 使 MLP 能 够 表示 该 图 数 ， 学 习 也 可 能 因 两 个 不 同 的 原因 而 失 
败 。 首 先 ， 用 于 训练 的 优化 算法 可 能 找 不 到 用 于 期 望 函 数 的 参数 值 。 其 
次 ， 训 练 算 法 可 能 由 于 过 拟 合 而 选择 了 错误 的 函数 。 回 忆 第 5.2.1 节 中 

的 “没有 免费 的 午餐 定理， 说 明了 没有 普 遇 优越 的 机 堪 学 习 算 法 。 前 馈 
网 络 提供 了 表示 函数 的 万 能 系统 ， 在 这 种 意义 上 ， 给 定 一 个 函数 ， 人 存在 
一 个 前 馈 网 络 能 够 近似 该 函数 。 不 存在 万 能 的 过 程 既 能 够 验证 训练 集 上 


的 特殊 样本 ， 叉 能 够 选择 一 个 函数 来 扩展 到 训练 集 上 没有 的 所。 


万 能 近似 定理 说 明 ， 存 在 一 个 足够 大 的 网 络 能 够 达到 我 们 所 希望 的 任意 
精度 ， 但 是 定理 并 没有 说 这 个 网 络 有 多 大 。Barron (1993) 提供 了 单 层 
网 络 近 似 一 大 类 函数 所 需 大 小 的 一 些 界 。 不 驻 的 是 ， 在 最 坏 情 况 下 ， 可 
能 需要 指数 数量 的 隐藏 单元 〈 可 能 一 个 隐藏 单元 对 应 着 一 个 需要 区 分 的 
输入 配置 ) 。 这 在 二 进 制 值 的 情况 下 很 容易 看 到 : 向 量 v € {0,1}” 
上 的 可 能 的 二 值 型 函数 的 数量 是 22 ， 并 且 选 择 一 个 这 样 的 函数 需要 2 
nr 位 ， 这 通常 需要 O(27) 的 自由 度 。 


总 之 ， 有 共有 单 层 的 前 馈 网 络 足 以 表示 任何 函数 ， 但 是 网 络 层 可 能 大 得 不 
可 实现 ， 并 且 可 能 无 法 正确 地 学 习 和 泛 化 。 在 很 多 情况 下 ， 使 用 更 深 的 
模型 能 够 减少 表示 期 望 函 数 所 需 的 单元 的 数量 ， 并 且 可 以 减少 泛 化 误 
FE 
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深度 被 限制 到 小 于 或 等 于 d 时 需要 一 个 远 远 大 于 之 前 的 模型 。 在 很 多 情 
况 下 ， 浅 层 模型 所 需 的 隐 儿 单 元 的 数量 是 n 的 指数 级 。 这 个 结果 了 最 初 被 
证 明 是 在 那些 不 与 连续 可 微 的 神经 网 络 类 似 的 机 器 学 习 模 型 中 出 现 ， 但 
现在 已 经 扩展 到 了 这 些 模 型 。 第 一 个 结果 是 关于 逻辑 门 电路 的 

(Hastad, 1986) 。 后 来 的 工作 将 这 些 结果 扩展 到 了 具有 非 负 权重 的 线 
性 国 值 单 元 CHastad and Goldmann, 1991; Hajnal et al. ，1993) ， 然 后 
扩展 到 了 具有 连续 值 激活 的 网 络 (Maass，1992; Maas et al. , 
1994) 。 许 多 现代 神经 网 络 使 用 整流 线性 单元 。Leshno et al. (1993) 
证 明 珊 有 一 大 类 非 多 项 式 激 活 函 数 族 的 浅 层 网 络 ， 包 括 人 整流 线 性 单元 ， 
具有 万 能 的 近似 性 质 ， 但 是 这 些 结果 并 没有 强调 次 度 或 效率 的 问题 
它们 仅 指 出 足够 宽 的 整流 网 络 能 够 表示 任意 函数 。Montufar et al. 
(2014) 指出 一 些 用 深度 整流 网 络 表 示 的 函数 可 能 需要 浅 层 网 络 〈 一 个 
Saye) 指数 级 的 隐 蔚 单元 才能 表示 。 更 确切 地 说 ， 他 们 说 明 分 段 线性 
网 络 〈 可 以 通过 整流 非 线 性 或 maxout 单 元 获得 ) 可 以 表示 区 域 的 数量 是 
网 络 深度 的 指数 级 的 函数 。 图 6.5 解 释 了 市 有 绝对 值 整 流 的 网 络 是 如 何 
创建 函数 的 镜像 图 像 的 ， 这 些 函 数 在 条 些 隐 羧 单元 的 项 部 计算 ， 作 用 于 
隐 羧 单元 的 输入 。 每 个 隐 羧 单元 指定 在 哪里 打 有 登 输入 空间 ， 来 创造 镜像 
啊 应 〈 在 绝对 值 非 线 性 的 两 侧 ) 。 通 过 组 合 这 些 折 车 操作 ， 我 们 获得 指 
数 级 的 分 段 线性 区 域 ， 它 们 可 以 概括 所 有 种 类 的 规则 模式 (例如 ， 重 
复 ) 。 








图 6.5 ”关于 更 深 的 整流 网 络 具 有 指数 优势 的 一 个 直观 的 几何 解释 ， 来 上 自 Montufar et al. 

(2014) . (A) 绝对 值 整 流 单 元 对 其 输入 中 的 每 对 镜像 点 有 相同 的 输出 。 镜 像 的 对 称 轴 由 单 
元 的 权重 和 仿 置 定义 的 超 平 面 给 出 。 在 访 单 元 项 部 计算 的 函数 〈 绿 色 诀 策 面 ) 将 是 横路 该 对 称 
轴 的 更 简单 模式 的 一 个 镜像 。 中) em BAY Wa rr eT i A BI eI SRS BE. C A 
一 个 重复 模式 可 以 在 第 一 个 的 项 部 折 钙 (由 男 一 个 下 游 单 元 〉 以 获得 男 外 的 对 称 性 (现在 午 复 4 
次 ， 使 用 了 两 个 隐藏 屋 ) 。 经 Montufar etal. (2014) 许可 引用 此 图 




















Montufar et al. (2014) 的 主要 定理 指出 ， 有 具有 d 个 输入 、 深 上 度 为 ]、 每 个 
隐藏 层 上 其 有 n 个 蛙 元 的 深 瓜 整流 网 络 可 以 描述 的 线性 区 域 的 数量 是 


m d(l—1) 
o(() r) (6.42) 


意味 着 ， 这 是 深度 ] 的 指数 级 。 在 每 个 单元 具有 k 个 过 滤 需 的 maxout 网 络 
中 ， 线 性 区 域 的 数量 是 


a {ee (6.43) 


当然 ， 我 们 不 能 你 证 在 机 占 学 习 〈 特 别 是 AIT》〉 的 应 用 中 想 要 学 得 的 函数 
类 型 圣 有 这 样 的 属性 。 


还 可 能 出 于 统计 原因 来 选择 深度 模型 。 任 何 时 候 ， 当 选择 一 个 特定 的 机 
名 学 习 算 法 时 ， 我 们 隐 舍 地 陈述 了 一 些 先 验 ， 这 些 完 验 是 天 于 算法 应 该 
学 得 什么 样 的 函数 的 。 选 择 深度 模型 献 许 了 一 个 非常 普 授 的 信念 ， 那 不 
是 我 们 想 要 学 得 的 函数 应 该 涉 及 几 个 更 加 人 刹 单 的 函数 的 组 合 。 这 可 以 从 
表示 等 习 的 观点 来 解释 ， 我 们 相信 和 学习 的 问题 包含 肥 现 一 组 潜在 的 变 到 
因 系 ， 它 们 可 以 根据 其 他 更 简单 的 潜在 的 变 牵 因 系 来 插 述 。 或 者 ， 我 们 
可 以 将 深度 结构 的 使 用 解释 为 为 一 种 信念 ， 那 就 是 我 们 想 要 学 得 的 函数 
征 包 人 台 多 个 步骤 的 计算 机 程序 ， 其 中 每 个 步骤 使 用 前 一 步骤 的 输出 。 这 
些 中 间 输 出 不 一 定 是 变 天 因 系 ， 而 是 可 以 类 似 于 网 络 用 来 组 织 其 内 部 处 
理 的 计数 可 或 指针 。 根 据 经 验 ， 更 深 的 模型 似乎 确实 在 广泛 的 任务 中 泛 


化 得 更 好 (Bengio et al. , 2007b; Erhan et al. , 2009; Bengio, 2009; 
Mesnil et al. , 2011; Ciresan et al. , 2012; Krizhevsky etal. , 2012a:; 
Sermanet et al. , 2013; Farabet et al. , 2013; Couprie et al. , 2013; 
Kahou et al. , 2013; Goodfellow et al. , 2014d; Szegedy et al. , 
2014a) 。 图 6.6 和 图 6.7 展 示 了 一 些 实验 结果 的 例子 。 这 表明 使 用 深层 染 
构 确实 在 模型 学 习 的 函数 空间 上 表示 J 了 一 个 有 用 的 先 验 。 
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图 6.6 ”深度 的 影响 。 实 验 结果 表明 ， 当 从 地 址 照片 转 录 多 位 数字 时 ， 更 深层 的 网 络 能 够 更 好 地 
泛 化 。 数 据 来 目 Goodfellow etal. (2014d) 。 测 试 集 上 的 准确 率 随 着 深度 的 增加 而 不 断 增加 。 必 
6.7 给 出 了 一 个 对 照 实 验 ， 它 说 明了 对 模型 尺寸 其 他 方面 的 增加 并 不 能 产生 相同 的 效果 
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图 6.7 参数 数量 的 有 影响。 更 深 的 模型 往往 表现 更 好 。 这 不 仪 仪 是 因为 模型 更 大 。Goodfellow et 
al. (2014d) 的 这 项 实验 表明 ， 增 加 卷 积 网 络 层 中 参数 的 数量 ， 但 是 不 增加 它们 的 深度 ， 在 提 
升 测 试 集 性 能 方面 几乎 没有 效果 。 图 例 标 明了 用 于 画 出 每 条 曲线 的 网 络 深度 ， 以 及 曲线 表示 的 
是 卷 积 层 还 是 全 连接 层 的 大 小 变化 。 我 们 可 以 观察 到 ， 在 这 种 情况 下 ， 浅 层 模 型 在 参数 数量 达 
到 2000 万 时 就 过 拟 合 ， 而 深层 模型 在 参数 数量 超过 6000 万 时 仍然 表现 良好 。 这 表明 ， 使 用 深层 
模型 表达 出 了 对 模型 可 以 学 习 的 函数 空间 的 有 用 偏好 。 具 体 来 说 ， 它 表达 了 一 种 信念 ， 即 该 函 








数 应 该 由 许多 更 简单 的 函数 复合 在 一 起 而 得 到 。 这 可 能 导致 学 习 由 更 简单 的 表示 所 组 成 的 表示 
(例如 ， 由 边 所 定义 的 角 〉 或 者 学 习 具 有 顺序 依赖 步骤 的 程序 〈 例 如 ， 首 先 定 位 一 组 对 象 ， 然 
后 分 割 它 们 ， 之 后 识别 它们 ) 


6.4.2 其 他 架构 上 的 考虑 


到 目前 为 止 ， 我们 痢 将 神经 网 络 手 述 成 层 的 简单 链 式 结构 ， 主 要 的 考虑 
因 系 是 网 络 的 深度 和 每 层 的 完 度 。 在 实践 中 ， 神 经 网 络 显 示 出 相当 的 多 
样 性 。 


许多 神经 网 络 浊 构 已 经 被 开 必用 于 特定 的 任务 。 用 于 计算 机 视觉 的 郑 积 
俐 经 网 络 的 特殊 染 构 将 在 第 9 半 中 介绍 。 前 馈 网 络 也 可 以 推广 到 用 于 序 
列 处 理 的 循环 神经 网 络 ， 但 有 它们 目 己 的 染 构 考 虑 ， 这 将 在 第 10 半 中 介 


绍 。 


一 般 来 说 ， 层 不 需要 连接 在 链 中 ， 尺 官 这 是 最 弟 见 的 做 法 。 许 多 淋 构 构 
建 了 一 个 主 链 ， 但 随后 义 洪 加 了 祝 外 的 染 构 特性 ， 例 如 从 层 i 到 层 i 十 2 或 
者 更 忆 层 的 跳 路 连接 。 这 些 跳跃 连接 使 得 标 度 更 容易 从 输出 层 流 问 更 接 
近 输 入 的 层 。 


淋 构 设计 考虑 的 力 外 一 个 关键 扣 是 如 何 将 层 与 层 之 间 连 接 起 来 。 责 认 有 乓 
神经 网 络 层 采用 窍 阵 W 擅 述 的 线性 变换 ， 每 个 输入 单元 连接 到 每 个 输 
出 单元 。 在 之 后 章节 中 的 许多 专用 网 络 具 有 较 少 的 连接 ， 使 得 输入 层 中 
的 每 个 单元 仅 连 接 到 输出 层 单 元 的 一 个 小 子 集 。 这 些 用 于 减少 连接 数量 
的 蛇 略 减少 了 参数 的 数量 以 及 用 于 评估 网络 的 计算 量 ， 但 通 币 高 度 依赖 
于 问题 。 例 如 ， 第 9 草 手 述 的 和 耸 积 神经 网 络 使 用 对 于 计算 机 视觉 问题 非 
冲 有 效 的 稀 距 连接 的 专用 模式 。 在 这 一 重 中 ， 很 难 对 通用 神经 网 络 的 以 
构 给 出 更 多 具体 的 建议 。 我 们 在 随后 的 革 市 中 介绍 一 些 特殊 的 染 构 条 

WS, 可 以 在 不 同 的 领域 工作 民 好 。 


6.5 ”有 反问 传播 和 其 他 的 微分 算法 


当 我 们 使 用 前 馈 神 经 网 络 接收 输入 x 并 产生 输出 V 时 ， 信 息 通 过 网 络 同 
AU. TAA x 提供 初始 信息 ， 然 后 传播 到 每 一 层 的 隐藏 单元 ， 了 最 终 产 
生 和 输出 。 这 称 之 为 脐 同 传播 (forward propagation〉。 在 训练 过 程 
中 ， 前 癌 传 播 可 以 持续 同 前 直到 它 产 生 一 个 标量 代价 函数 J 8 )。 反 回 传 


4 (back propagation) 算法 (Rumelhart et al. , 1986c) ， 经 党 简称 
为 backprop  ， 人 允许 来 目 代 价 函 数 的 信息 通过 网 络 同 后 流动 ， 以 便 计 算 
Refs PE. o 


计算 梯度 的 解析 表达 式 是 很 直观 的 ， 但 是 数值 化 地 求解 这 样 的 表达 式 在 
计算 上 的 代价 可 能 很 大 。 反 向 传播 算法 使 用 简单 和 廉价 的 程序 来 实现 这 
个 目标 。 


反 向 传播 这 个 术语 经 常 被 误解 为 用 于 多 层 神经 网 络 的 整个 学 习 算法 。 实 
际 上 ， 反 向 传播 仅 指 用 于 计算 梯度 的 方法 ， 而 另 一 种 算法 ， 例 如 随机 梯 
度 下 降 ， 使 用 该 梯度 来 进行 学 习 。 此 外 ， 反 向 传播 经 常 被 误解 为 仅 适 用 
于 多 层 神 经 网 络 ， 但 是 原则 上 它 可 以 计算 任何 函数 的 导数 (对 于 一 些 函 
数 ， 正 确 的 响应 是 报告 函数 的 导数 是 未 定义 的 ) 。 特 别 地 ， 我 们 会 描述 
如 何 计算 一 个 任意 函数 f 的 梯度 Vj f(z2, yY) EF x 是 一 组 变量 ， 我 
们 需要 它们 的 导数 ， 而 y 是 函数 的 另外 一 组 输入 变量 ， 但 我 们 并 不 需要 
它们 的 导数 。 在 学 习 算 法 中 ， 我 们 最 常 需要 的 梯度 是 代价 函数 关于 参数 
的 梯度 ， 即 Vg.J( 昌 ) 。 许 多 机 器 学 习 任 务 需 要 计算 其 他 导数 ， 来 作为 
学 习 过 程 的 一 部 分 ， 或 者 用 来 分 析 学 得 的 模型 。 反 向 传播 算法 也 适用 于 
这 些 任务 ， 不 局 限于 计算 代价 函数 关于 参数 的 梯度 。 通 过 在 网 络 中 传播 
言 息 来 计算 导数 的 想法 非常 普遍 ， 它 还 可 以 用 于 计算 诸如 多 输出 函数 
的 Jacobian 的 值 。 我 们 这 里 描述 的 是 最 常用 的 情况 ， 其 中 f 只 有 单个 输 

He 


6.5.1 计算 图 

到 目前 为 止 ， 我 们 已 经 用 相对 非 正式 的 图 形 语 言 讨论 了 神经 网 络 。 为 了 
更 精确 地 摘 述 反 回 传播 算法 ， 使 用 更 精确 的 计算 图 (computational 
graph) 语言 是 很 有 帮助 的 。 

将 计算 形式 化 为 图 形 的 方法 有 很 多 。 


这 里 ， 我 们 使 用 图 中 的 每 一 个 市 点 来 表示 一 个 变量 。 变 量 可 以 是 标量 、 

问 量 、 窍 阵 、 张 量 或 者 甚至 是 另 一 类 型 的 变量 。 

为 了 形式 化 图 形 ， 我 们 还 需 引 入 操作 Coperation) 这 一 概念 。 操 作 是 指 
一 个 或 多 个 变量 的 简单 函数 。 疼 形 语言 伴随 着 一 组 被 允许 的 操作 。 我 们 
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为 了 不 失 一 般 性 ， 我 们 定义 一 个 操作 仪 返 回 早 个 输出 变量 。 这 并 没有 失 
去 一 般 性 ， 是 因为 输出 变量 可 以 有 多 个 条 目 ， 例 如 回 量 。 反 问 传 播 的 软 
件 实现 通 第 支持 共有 多 个 输出 的 操作 ， 但 十 我 们 在 插 述 中 避免 这 种 情 
况 ， 因 为 它 引 入 了 对 概念 理解 不 重要 的 许多 秘 外 细 广 。 

如 朵 变量 y 古 变量 x 通过 一 个 操作 计算 得 到 的 ， 那 么 我 们 画 一 条 从 x 到 y 的 
有 问 边 。 有 时 我 们 用 操作 的 名 称 来 注释 输出 的 市 点 ， 当 上 下 文 很 明确 
时 ， 有 时 也 会 省 略 这 个 标注 。 


计算 图 的 示例 可 以 参考 图 6.8。 





图 6.8 ”一些 计算 图 的 示例 。(a) 使 用 x 操 作 计算 z 一 xy 的 图 。 (b) 用 于 逻辑 回归 预测 
= olx! w 十 如 ) 的 图 。 一些 中 间 表 达 式 在 代数 表达 式 中 没有 名 称 ， 但 在 图 形 中 却 需要 。 
我 们 简单 地 将 第 i 个 这 样 的 变量 命名 为 u 也 。 (c) 表达 式 H = max{0, X W +b} 





的 计算 图 ， 在 给 定 包含 小 批量 输入 数据 的 设计 矩阵 x 时 ， 它 计算 整流 线性 单元 激活 的 设计 矩阵 ] 

Cd) 示例 Ca) 到 Cc) 对 每 个 变量 最 多 只 实施 一 个 操作 ， 但 是 对 变量 实施 多 个 操作 也 是 可 能 
的 。 这 里 我 们 展示 一 个 计算 图 ， 它 对 线性 回归 模型 的 权重 w 实施 多 个 操作 。 这 个 权重 不 仅 用 于 
预测 W ， 也 用 于 权重 衰减 罚 项 入》 w 


6.5.2 ”做 积分 中 的 链 式 法 则 


微 积 分 中 的 链 陈 法 则 《〈 为 了 不 与 概率 中 的 链 却 法 则 相 混 清 ) 用 于 计算 复 
合 函 数 的 导数 。 反 辐 传 播 是 一 种 计算 链 式 法 则 的 算法 ， 使 用 高 效 的 特定 
运算 顺序 。 


设 x 是 实数 ，f 和 lg 是 从 实数 映射 到 实数 的 函数 。 假 设 y 二 g(x) 并 且 z== 
f(g(x)) 二 f(y)。 那 么 链 式 法 则 是 说 








dz dz dy NPT 
a T= (6.44) 
我 们 可 以 将 这 种 标量 情况 进行 扩展 。 假 设 E R”, y E R”, 
7EMTR™ FI R” IBS, PEAR” 全 | R 的 i 如 果 
y= IFA z = fly)» W4 


Oz Oy; 
6.45 
o> Oy; Ox; Baa) 











一 
使 用 同 量 记 法 ， 可 以 等 价 地 写成 


Yt = (32) Vy? (6.46) 


OY 是 g 的 nxm 的 Jacobian 知 隆 ， 
Or 


从 这 里 我 们 看 到 ， 变 量 x 的 梯度 可 以 通 tacobian’ipcO Y Al fs FE 


Ox 
Vyz ， 相 乘 来 得 到 。 反 向 传播 算法 由 图 中 每 一 个 这 文 样 的 Jacobian 梯 度 的 
eR tk WALA. 


通常 我 们 将 反问 传播 算法 应 用 于 任意 维度 的 张 量 ， 而 不 仪 仪 用 于 问 量 。 
从 概念 上 讲 ， 这 与 使 用 同 量 的 反 回 传播 完全 相同 。 唯 一 的 区 列 是 如 何 将 
数字 排列 成 网 格 以 形成 张 量 。 我 们 可 以 想象 ， 在 运行 反问 传 播 之 前 ， 将 
AEM RE EA Sale, TSI, PARRA RE BT) 
造成 一 个 张 量 。 从 这 种 重新 排列 的 观点 上 看 ， 反 同 传 播 仍然 只 是 将 
Jacobian 乘 以 梯度 。 


为 了 表示 值 z 关 于 张 量 X 的 梯度 ， 我 们 记 为 了 X > ， 就 像 X 是 向 量 一 
样 。X 。 的 索引 现在 有 多 个 坐标 _ 例如 ， 一 个 3 维 的 张 量 由 3 个 坐标 索 
引 。 我 们 可 以 通过 使 用 单个 变量 来 表示 完整 的 索引 元 组 ， 从 而 完全 抽 

象 出 来 。 对 所 有 可 能 的 元 组 ，(Vxz); 给 出 j o 这 与 向 量 中 索引 的 方 
式 完 全 一 致 ， (V z ); ny IH — 。 使 用 这 种 记 法 ， 我 们 
可 以 写 出 适用 于 张 量 的 链 式 法 则 。 如 果 Y = g(X) JEH. > = F(Y) 
， 那 么 








个 


Oz ; 
Vxz= > (Vx LETA (6.47) 


. 


J 


6.5.3 ”递归 地 使 用 链 式 法 则 来 实现 反 辐 传播 


使 用 链 式 规则 ， 我 们 可 以 直接 写 出 示 个 标量 关于 计算 图 中 任何 产生 该 标 
量 的 市 反 的 标 度 的 代数 表达 式 。 然 而 ， 实 际 在 计算 机 中 计算 该 表达 式 时 
会 引入 一 些 额 外 的 考虑 。 


具体 来 说 ， 许 多 了 表达 式 可 能 在 标 度 的 整个 表达 式 中 草 复 奢 干 侈 。 任 何 
计算 梯度 的 程序 都 需要 选择 是 存储 这 些 子 表达 却 还 是 重新 计算 它们 几 
次 。 图 6.9 给 出 了 一 个 例子 来 说 明 这 些 重 复 的 子 表 达 却 是 如 何 出 现 的 。 
TEREST LB PS PABA Fea CUA EIR. TERRA, AY 
Het te Ta lS NI EIR Oe, Ee Ta RESIS AN AY SEL. FE 
HAED P AWRAT RIEAN BE ee VAC re HY 3 FT YT) AT 
来 减少 内 存 开销 的 有 效 手 段 。 


图 6.9 ”计算 梯度 时 导致 重复 子 表达 式 的 计算 图 。 令 1) E 上 为 图 的 输入 。 我 们 对 链 中 的 每 
一 步 使 用 相同 的 操作 函数 f: IR 一 R. axs fw) y=) z= f(y)。 为 了 





OZ ， 我 们 应 用 式 (644) 得 到 
Ow 
oe (6.48) 
Ow 
— Oy Ox Ow 6.49) 
=F" (y)F Ef w) (6.50) 
=F" (FF FF) fw) (6.51) 


TL (6.50) 建议 我 们 采用 的 实现 方式 是 ， 仅 计算 矿 (w ) 的 值 一 次 并 将 它 存 
储 在 变量 x 中 。 这 是 反问 传播 算法 所 米 用 的 方法 。 式 6.51) 所 出 了 一 
种 替代 方法 ， 其 中 子 表达 式 f(w ) 出 现 了 不 止 一 次 。 在 斩 代 方法 中 ， 每 次 
只 在 需要 时 重新 计算 Fw )。 当 存储 这 些 表达 式 的 值 所 需 的 存储 较 少时 ， 
式 〈6.50) 的 有 反问 传播 方法 显然 是 较 优 的 ， 因 为 它 减 少 了 运行 时 间 。 然 
MW, 3X (6.51) 也 是 链 式 法 则 的 有 效 实现 ， 并 且 当 存储 受 限 时 它 古 有 用 
的 


我 们 首 抑 给 出 一 个 版 本 的 反 同 传播 算法 ， 它 指明 了 覆 度 的 直接 计算 方式 

(算法 6.2 以 及 相关 的 正 同 计算 的 算法 6.1 ) ， 投 照 它 实际 完成 的 顺序 并 
且 递 归 地 使 用 链 式 法 则 。 我 们 可 以 直接 执行 这 些 计算 或 者 将 算法 的 描述 
钢 为 用 于 计算 反问 传播 的 计算 图 的 稚 写 表示 。 然 而 ， 这 些 公 式 并 没有 有明 
确 地 操作 和 构造 用 于 计算 构 度 的 人 符 写 图 。 这 些 公 式 将 在 后 面 的 第 6.5.6 市 
和 算法 6.5 中 给 出 ， 其 中 我 们 还 推广 到 了 包 合 任意 张 量 的 节点 。 


首先 考虑 描述 如 何 计算 单个 标量 ua 四 (例如 训练 样本 上 的 损失 函数 ) 的 
计算 图 。 我 们 想 要 nineties 
(n) 


换 名 话说， 我们 希望 对 所 有 的 1 EC{1, 2, ny} ee 
Ou? 


在 使 用 反 向 传播 计算 梯度 来 实现 参数 的 梯度 下 降 时 ，u 外 将 对 应 单个 或 
者 小 批量 实例 的 代价 函数 ， 而 u 中 到 ,mi 则 对 应 于 模型 的 参数 。 


假设 图 的 古 扣 已 经 以 一 种 生 殊 的 方式 锐 排 友 ， 使 得 我 们 可 以 一 个 接 一 个 
地 计算 他 们 的 输出 ， 从 jj (Ri 十 1) 开始 ， 一 直上 升 到 um 。 如 算法 6.1 中 
所 定义 的 ， 每 个 节点 ug 与 操作 f 中 相关 联 ， 并 且 通 过 对 以 下 函数 求 值 来 
得 到 
u) = f(A) (6.52) 
FH A (2 i) 是 u 所 有 父 节点 的 集合 。 


该 算法 详细 说 明了 前 向 传播 的 计算 ， 我 们 可 以 将 其 放 入 图 G” 中。 为 了 
执行 反 向 传播 我 们 可 以 构造 一 个 依赖 于 C 并 添加 额外 一 组 节点 的 计 
算 图 。 这 形成 了 一 个 子 图 /3 ， 它 的 每 个 节点 都 是 G 的 节点 。J3 中 的 
计算 和 7 中 的 计算 witli 中 的 每 个 节点 计算 导数 
aut 与 前 向 图 中 的 节点 u @ 相关 联 。 这 通过 对 标量 输出 u 四 使 用 链 


Ou 
式 法 则 来 完成 : 


算法 6.1 ”计算 将 n ;个 输入 u Si), (Ri) 映射 到 一 个 输出 u 的 程序 。 
这 定义 了 一 个 计算 算 图 ， A wae ua, 应 用 到 变量 集合 
AO) 上 来 计算 a © WE, AC) 包含 先前 节点 u 中 的 值 满足 j<i 且 
j € Pa(u) 。 计 算 图 的 输入 是 向 量 x ， 并 且 被 分 配给 前 n i; 个 节点 u 
(1) Pla (ni) o WARR H AMASA G au eH. 


fori =1,--- ,n; do 
ut?) 


= 2; 


end for 

for i = ni +1,---,n do 
A® — {uD | j e Pa(u™)} 
yu) + fO (AM) 

end for 

return u™) 


算法 6.2 ” 反 向 传播 算法 的 简化 版 本 ， 用 于 计算 u 0 关于 图 中 变量 的 导 

数 。 这 个 示例 旨 在 通过 演示 所 有 变量 都 是 标量 的 简化 情况 来 进一步 理解 

反 向 传播 算法 ， 这 里 我 们 希望 计算 关于 w(1)，.. . uO) 的 导数 。 这 个 

简化 版 本 计算 了 关于 图 中 所 有 节点 的 导数 。 假 定 与 每 条 边 相关 联 的 偏 导 

禾 计 算 需 要 恒定 的 时 间 的 话 ， 该 算法 的 计算 成 本 与 图 中 边 的 数 车 成 比 

例 。 这 与 前 向 传播 的 计算 次 数 具有 相同 的 阶 。 每 个 全 ww 是 O 的 多 
Ja 


节点 u O WRZ ATTAR e ET A E R E R ES 


JvYVN 





运行 前 问 传 播 ( 对 于 此 例 是 算法 6.1 ) 获得 网 络 的 激活 。 
急 始 化 grad table ， 用 于 存储 计算 好 的 导数 的 数据 结构 。grad table 


A (7) 
ru] geen OU 计算 好 的 人 
ou." 





grad table Lu ] —1 
for j=n-1 down to 1 do 


下 一 行使 用 存储 的 值 计 算 | 7 
Aum So ‘> o= Q ut Ay 
ðu) — Lvi:jEPafu)) Au) Au 











grad_table{u'!)| m 》 sijePalu) grad_tableļu “| — 


end for 











return {grad_table[u'”] |i=1,--- , ni} 
Ou” E D aiis Oa 6.55) 
Oud) Oyu Ou) 
i:j€Pa(u ) 


这 在 算法 6.2 中 详细 说 明 。 子 图 J 恰好 包含 每 一 条 对 应 着 (7 中 从 节点 

Ya (2) 

0 到 节点 ug@ 的 边 。 从 u O 到 ug 的 边 对 应 着 计算 OU .另外 ， 对 于 
odut) 

每 个 节点 都 要 执行 一 个 内 积 ， 内 积 的 一 个 因子 是 对 于 uj 子 节点 ug 的 已 


经 计算 的 梯度 ， 另 一 个 因子 是 对 于 相同 子 节点 u a OU — 组 


OU! . 
成 的 向 量 。 总 而 言 之 ， 执 行 反 向 传播 所 需 的 计算 量 与 (C 中 的 边 的 数量 
成 比例 ， 其 中 每 条 边 的 计算 包括 计算 侦 寻 数 〈 节 点 天 于 它 的 一 个 父 贡 操 
a Sl) 以 及 执行 一 次 乘法 和 一 次 加 法 。 下 面 ， 我 们 将 此 分 析 推 广 到 
张 量 值 币 点， 这 只 是 在 同一 节点 中 对 多 个 标量 值 进行 分 组 并 能 够 更 高 效 
地 实现 。 


反 回 传播 算法 被 设计 为 减少 公共 于 表达 了 式 的 数量 而 不 考虑 存储 的 开销 。 
具体 来 说 ， 它 大 约 对 图 中 的 每 个 节点 执行 一 个 Jacobian 乘 积 。 这 可 以 从 
算法 6.2 中 看 出 ， Bete Fe ah SZ Vr 问 ne O 到 节点 u © 的 每 条 
es RA 。 有 反问 传播 因此 避免 了 重复 子 表 
Ou? 

AARIS RURE. PRIM, HABRIA H BERIA T E BEAT RE a E 
多 的 千 表达 式 ， 或 者 也 可 能 通过 重新 计算 而 不 是 存储 这 些 子 表达 式 来 和 
省 内 存 。 我 们 将 在 摘 述 完 反 回 传 播 算法 本 映 后 再 重新 审视 这 些 和 想法。 


6.5.4 全 连接 MLP 中 的 反 向 传播 计算 


为 了 阐明 反问 传播 的 上 述 定 义 ， 让 我 们 考虑 一 个 与 全 连接 的 多 层 MLP 相 
关联 的 特定 图 。 





算法 6.3 首 先 给 出 了 前 向 传播 ， 它 将 参数 映射 到 与 单个 训练 样本 〈 输 
入 ， 目 标 ) 〈 xy ) 相关 联 的 监督 损失 函数 万 (分 , y) HPY 是 当 x 
提供 输入 时 神经 网 络 的 输出 。 


算法 6.3 tn ed biol ee eee 损失 也 
“L(Y, y) 取决 于 输出 和 目标 y (参考 第 6.2.1.1 节 中 损失 函数 的 示 
例 ) 。 为 了 获得 总 代价 J， 损 夫 函数 可 以 加 上 正则 项 Q08)， 其 中 0 包含 所 
有 参数 (权重 和 偏 置 ，。 算 法 6.4 说 明了 如 何 计算 ] 关 于 参数 生 e” 和 b 的 
柳 度 。 为 简单 起 见 ， 访 演示 仅 使 用 单个 输入 样本 x 。 实 际 应 用 应 该 使 用 
小 批量 。 请 参考 第 6.5.7 市 以 获得 更 加 真实 的 浇 示 。 
Require: JIR, l 
Require: Ww. 1 € tl, e. E ， 模 型 的 权重 矩阵 
Require: b) į c Lv， 檬 型 的 偏 置 参数 
Require: x ， 程 序 的 输入 
Require: y ， 目 标 输出 

h © = 

for k=1, ..., ldo 


q(*) _ pE) 4 wh) REE) 


算法 6.4 随 后 说 明了 将 反 同 传播 应 用 于 坊 图 所 需 的 相关 计算 。 


算法 6.3 和 算法 6.4 是 简 早 而 二 观 的 演示 。 然 而 ， 它 们 专门 针对 特定 的 问 
题 。 


现在 的 软件 实现 基于 之 后 第 6.5.6 节 中 搞 述 的 一 般 形 陈 的 反 辐 传播 ， 它 可 
以 通过 时 去 地 操作 表示 符 气 计算 的 数据 结构 ， 来 适应 任何 计算 图 。 


6.5.5 ”符号 到 符 亏 的 导数 

代数 表达 式 和 计算 图 都 对 符号 ” “(symbol) 或 不 具有 特定 值 的 变量 进行 
操作 。 这 些 代 数 或 者 基于 图 的 表达 式 补 称 为 从 号 表示 (symbolic 
representation) 。 当 实际 使 用 或 者 训练 神经 网 络 时 ， 我 们 必须 给 这 些 符 


写 赋 特 定 的 值 。 我 们 用 一 个 特定 的 数值 (numeric value) 来 蔡 代 网 络 的 
符号 输入 X ， 例如 |1.2,， 2. 705, —1.8]' : 


算法 6.4 ”深度 神经 网 络 中 算法 6.3 的 反问 计算 ， 它 不 止 使 用 了 输入 x 和 
目标 y o 该 计算 对 于 每 一 层 k 都 产生 了 对 激活 0y(%) 的 梯度 ， 从 输出 层 
开始 向 后 计算 一 直到 第 一 个 隐藏 层 。 这 些 梯 度 可 以 看 作对 每 层 的 输出 应 
如 何 调整 以 减 小 误差 的 指导 ， 根 据 这 些 梯度 可 以 获得 对 每 层 参数 的 梯 
度 。 权 重 和 偏 置 上 的 梯度 可 以 立即 用 作 随 机 梯度 更 新 的 一 部 分 (梯度 算 
出 后 即 可 执行 更 新 ) ， 或 者 与 其 他 基于 梯度 的 优化 方法 一 起 使 用 。 


在 前 向 计算 完成 后 ， 计 算 顶 层 的 梯度 : 
和 
for k=l, l-1, ..., 1 do 


KRT E E FRA EZ EHO A E ORE 
TAW, MELTA HEAR AR): 


g- V. d = gO f'(a) 


计算 关于 权重 和 偏 置 的 梯度 〈 如 果 需 要 的 话 ， 还 要 包括 正则 项 ) : 
Vid = g + AVO) 
Vwwd = g AYT E ywo AA 
RF BR ERE AY Betis 72 ESE : 
dg Vw d= W") g 


end for 


一 些 反 癌 传 播 的 方法 采用 计算 图 和 一 组 用 于 图 的 输入 的 数值 ， 然 后 返回 
在 这 些 输入 值 处 梯度 的 一 组 数值 。 我 们 将 这 种 方法 称 为 符号 到 数值 ”的 
微分 。 这 种 方法 用 在 诸如 Torch (Collobert et al. , 2011b) 和 
Caffe (Jia, 2013) 之 类 的 库 中 。 


Fy TRE RATT AAW AS A a SIT A, cee gi 
外 的 节点 提供 了 我 们 所 需 导 数 的 从 号 摘 述 。 这 十 Theano (Bergstra et al. 
, 2010b; Bastien et al. , 2012b) 和 TensorFlow (Abadi et al. , 2015) 
所 采用 的 方法 。 图 6.10 给 出 了 该 方法 如 何 工 作 的 一 个 例子 。 








图 6.10 使 用 符号 到 符号 的 方法 计算 导数 的 示例 。 在 这 种 方法 中 ， 反 向 传播 算法 不 需要 访问 任 
何 实际 的 特定 数值 。 相 反 ， 它 将 节点 添加 到 计算 图 中 来 描述 如 何 计算 这 些 导数 。 通 用 图 形 求 值 
引擎 可 以 在 随后 计算 任何 特定 数值 的 导数 。 CAE) 在 这 个 例子 中 ， 我 们 从 表示 z=-ft( F( w 的 
开始 。 OD 我 们 运行 反 向 传播 算法 ， 指 导 它 构造 表达 式 CS 对 应 的 图 。 在 这 个 例子 中 ， R 


ctv 
们 不 解释 反问 传播 算法 如 何 工作 。 我 们 的 目的 只 是 说 明 想 要 的 结果 是 什么 : FES THR SY 
计算 图 


这 种 方法 的 主要 优点 是 导数 可 以 使 用 与 原始 表达 式 相 同 的 语言 来 拍 述 。 
因为 导数 只 是 为 外 一 张 计算 图 ， 我 们 可 以 再 次 运行 有 反 同 传播， 对 导数 再 
进行 求 导 就 能 得 到 更 高 阶 的 导数 。 蜗 阶 导数 的 计算 在 第 6.5.10 节 中 撞 
述 。 


我 们 将 使 用 后 一 种 方法 ， 并 且 使 用 构造 寻 数 的 计算 图 的 方法 来 振 述 反 回 
传播 算法 。 图 的 任意 子 集 之 后 都 可 以 使 用 特定 的 数值 来 求 值 。 这 允许 我 
们 避免 精确 地 指明 每 个 操作 应 访 在 何 时 计算 。 相 反 ， 通 用 的 多 计算 引擎 
只 要 当 一 个 节 反 的 父 节 扩 的 值 部 可 用 时 就 可 以 进行 求 值 。 


基于 从 写 到 得 写 的 方法 的 插 述 包含 了 从 号 到 数值 的 方法 。 符 写 到 数值 的 
方法 可 以 理解 为 执行 了 与 生 写 到 符号 的 方法 中 构建 图 的 过 程 中 完全 相同 
的 计算 。 关 和 键 的 区 别 是 符号 到 数值 的 方法 个 会 习 示 出 计算 图 。 








6.5.6 一 般 化 的 反问 传播 
反 向 传播 算法 非常 简单 。 为 了 计算 某 个 标量 z 关 于 图 中 它 的 一 个 祖先 x 
的 梯度 ， 首 先 观察 到 它 关于 z 的 梯度 由 Q 馆 — 1 给 出 。 然后， 我 们 


可 以 计算 对 图 中 z 的 每 个 父 节 点 的 梯 上 度 ， 退 过 现 有 的 梯度 乘 以 产生 z 的 操 
作 的 Jacobian。 我 们 继续 乘 以 Jacobian， 以 这 种 方式 问 后 容 过 图 ， 直 到 到 
达 x 。 对 于 从 z 出 发 可 以 经 过 两 个 或 更 多 路 和 公 同 后 行进 而 到 达 的 任意 市 
上 态 ， 我 们 人 简 早 地 对 该 节点 来 目 不 同 路 径 上 的 构 度 进行 求 和 。 


更 正式 地 ， 图 G ”中 的 每 个 节点 对 应 着 一 个 变量 。 为 了 实现 最 大 的 一 般 
化 ， 我 们 将 这 个 变量 描述 为 一 个 张 量 V 。 张 量 通常 可 以 具有 任意 维度 ， 
并 且 包 含 标量 、 向 量 和 矩阵 。 


我 们 假设 每 个 变量 V 与 下 列子 程序 相关 联 : 


e get_operation(V ): 它 返 回 用 于 计算 V 的 操作 ， 代 表 了 在 计算 图 中 流 
AV 的 边 。 例 如 ， 可 能 有 一 个 Python 或 者 C 十 十 的 类 表示 和 矩阵 乘法 
操作 ， 以 及 get_operation 函数 。 假 设 我 们 的 一 个 变量 是 由 是 阵 乘 法 
产生 的 ， C = AB 。 那 么 ，get_operation(V ) 返 回 一 个 指 回 相应 C 十 
十 类 的 实例 的 指针 。 

get_consumers(V,G): 它 返 回 一 组 变量 ， 是 计算 图 (yf 中 


VIN RR 
e get_inputs(V.G): 它 返回 一 组 变量 ， 是 计算 图 CO 中 V 的 


每 个 操作 op 也 与 bprop ”操作 相关 联 。 该 bprop ”操作 可 以 计算 如 式 
(6.47) 所 摘 述 的 Jacobian 回 量 积 。 这 是 反 回 传播 算法 能 够 实现 很 大 通 

用 性 的 原因 。 每 个 操作 负责 了 解 如 何 通 过 它 参 与 的 图 中 的 边 来 反 辐 传 

播 。 例如， 我 们 可 以 使 用 和 窍 阵 乘法 操作 来 产生 变量 C = AB 。 假 设 标量 z 
RT C 的 梯度 是 G 。 算 阵 乘 法 操作 人 负 贡 定义 两 个 反 问 传播 规则 ， 每 个 规 
则 对 应 于 一 个 输入 变量 。 如 果 我 们 调用 bprop 方法 来 请 求 天 于 A W 
有 度 ， 那 么 在 给 定 输 出 的 楷 度 为 G ”的 情况 下 ， 和 矩阵 乘法 操作 的 bprop 方 法 
必须 说 明基 于 A 的 梯度 是 GY B | 。 类 似 地 ， 如 果 我 们 调用 bprop 方法 
来 请 求 天 于 B 的 梯度 ， 那 么 矩阵 操作 负责 实现 bprop 方法 并 指定 和 希望 的 


梯度 是 A! Gl 。 反 向 传播 算法 本 身 并 不 需要 知道 任何 微分 法 则 。 它 只 
需要 使 用 正确 的 参数 调用 每 个 操作 的 bprop 方法 即 可 。 正 式 地 ， 
op.bprop(inputs, X, G ) 必须 返回 

X (Vxop.f(inputs)i)G; (6.54) 


2 


这 只 是 如 式 〈(6.47) 所 表达 的 链 式 法 则 的 实现 。 这 里 ，inputs 征 捉 供给 
操作 的 一 组 输入 ，op.f 是 操作 实现 的 数学 函数 ，X 是 输入 ， 我 们 想 要 计 
BAT CNBR, G 是 操作 对 于 输出 的 楷 度 。 


op.bprop 方法 应 该 总 古 假装 它 的 所 有 输入 彼此 不 同 ， 即 使 它们 不 是 。 例 
如 ， 如 果 mul 操作 传递 两 个 x 来 计算 x“ ，op.bprop 方法 应 该 仍然 返回 x 
作为 对 于 两 个 输入 的 导数 。 反 同 传 播 和 拭 法 后 面 会 将 这 些 变 量 加 起 来 获得 
2x， 这 是 x 上 总 的 正确 的 导数 。 


反问 传播 算法 的 软件 实现 通 第 提供 操作 和 其 bprop 方法 ， 所 以 深度 学 习 
软件 库 的 用 户 能 够 对 使 用 诸如 窍 隆 乘法 、 指 数 运算 、 对 数 运 算 等 党 用 探 
作 构 建 的 图 进行 反问 传播 。 构建 反问 传播 狐 实 现 的 软件 工程 师 或 者 害 要 
器 现 有 库 深 加 目 己 的 操作 的 高 级 用 户 通 背 必 须 手 动 为 新 操作 推导 
op.bprop 方法 。 

反 回 传播 算法 的 正式 摘 述 参考 算法 6.5。 

算法 6.5 ， 反 回 传播 算法 最 外 于 的 肯 名 。 这 部 分 做 简单 的 设置 和 清理 工 
作 。 大 多 数 重 要 的 工作 及 生 在 算法 6.6 的 子 程序 build_grad 中 。 

Require: F ， 需 要 计算 梯度 的 目标 变量 集 

Require: G , AA 

Require: z， 要 做 分 的 变量 


AG! 为 G 前 枝 后 的 计算 图 ， 其 中 仅 包括 z 的 祖先 以 及 中 中 节点 的 
后 代 。 


初始 化 grad table ， 它 是 关联 张 量 和 对 应 导数 的 数据 结构 。 


grad table |z] —1 
for V in T do 
build_grad(V.G,G’, grad_table) 
end for 


Return grad table restricted to F 


在 第 6.5.2 攻 中 ， 我 们 使 用 反 回 传播 作为 一 种 案 略 来 避免 多 次 计算 链 式 法 
则 中 的 相同 子 表达 式 。 由 于 这 些 重复 子 表达 式 的 存在 ， 人 简单 的 算法 可 能 
具有 指数 运行 时 间 。 现 在 我 们 已 经 详细 说 明了 反 回 传播 算法 ， 可 以 去 理 
解 它 的 计算 成 本 了 。 如 果 我 们 假设 每 个 操作 的 执行 都 有 大 致 相同 的 开 
销 ， 那 么 可 以 依据 执行 操作 的 数量 来 分 析 计 算 成 本 。 注 意 这 里 我 们 将 一 
个 操作 记 为 计算 图 的 基本 单位 ， 它 实际 可 能 包含 许多 算术 运算 (例如 ， 
我 们 可 能 将 窍 阵 乘法 视 为 单个 操作 ) 。 在 具有 n 个 廊 点 的 图 中 计算 柳 

度 ， 将 永远 不 会 执行 超过 O(n“ ) 个 操作 ， 或 者 存储 超过 O(n“ ) 个 操作 的 
输出 。 这 里 我 们 是 对 计算 图 中 的 操作 进行 计数 ， 而 不 是 由 搬 层 便 件 执行 
的 单独 操作 ， 上 所 以 重要 的 是 ， 要 记 住 每 个 操作 的 运行 时 间 可 能 是 高 度 可 
变 的 。 例 如 ， 两 个 矩阵 相 乘 可 能 对 应 着 图 中 的 一 个 单独 的 操作 ， 但 这 两 
个 矩阵 可 能 每 个 都 包含 数 白 万 个 元 素 。 我 们 可 以 看 到 ， 计 算 梯 上 度 至 多 需 
要 Om“ ) 的 操作 ， 因 为 在 最 坏 的 情况 下 ， 前 问 传播 的 步骤 将 在 原始 图 的 
全 部 n 个 节点 上 运行 (取决 于 我 们 想 要 计算 的 值 ， 可 能 不 需要 执行 整个 
RD o Berra sh SE TE Jel oe A BE ARI ST — Jacobian |r] AX, AY 
用 O(1) 个 节点 来 表达 。 因 为 计算 图 是 有 问 无 环 图 ， 它 至 多 有 Olm “ ) 条 
边 。 对 于 实践 中 党 用 图 的 类 型 ， 情 况 会 更 好 。 大 多 数 神 经 网 络 的 代价 也 
数 大 致 是 链 式 结构 的 ， 使 得 反 辐 传播 只 有 OO 的 成 本 。 这 远 远 胜 过 人 简单 
的 方法 ， 简 单方 法 可 能 需要 在 指数 级 的 节点 上 运算 。 这 种 洲 在 的 指数 级 
代价 可 以 通过 非 违 归 地 扩展 和 和 童 写 递归 链 式 法 则 ( 式 (6.53) ) 来 看 
出 : 


算法 6.6 反 回 传播 算法 的 内 循环 子 程序 
build_grad(V,0,0',grad_table)， 由 算法 6.5 中 定义 的 反 
问 传 播 算法 调用 。 


Require: V, 应 该 被 加 到 9 和 grad_table 的 变量 。 
Require: G, HAK. 
Require: 9 根据 参与 梯度 的 节点 9 的 受 限 图 。 
Require: grad_table, 将 方 点 映 HEX 应 梯度 的 数据 结构 。 
if V is in grad_table then 
Return grad tablelV| 
end if 
1< | 
for C in get_consumers(V.G’) do 
op +— get_operation(C) 
D — build_grad(C, G.G’, grad_table) 
G) — op.bprop(get_inputs(C, G’), V, D) 
2 * 一 2 十 1 
end for 
一 G 
grad_table|V| = G 
插入 G 和 将 其 生成 到 9 中 的 操作 
Return G 


Ou (n) t Oy tk ) 
= a a Be 
dud) 一 2, | | 3 taal (6.55) 


ROD yh ss susTt)) :一 和 





path(u 
from 71=j to m4=n 


EFE Aj BU a REA H AY DA a ee AIR BE ERE, 
ATCA ERROR AES PA CEPA EIB). AY — ER 


深度 的 指数 级 增长 。 EPEKA EEU ， ， 相 同 的 
计算 会 重复 进行 很 多 次 。 为 了 避免 这 种 重新 计算 我 们 可 以 将 反 向 传 所 
看 作 一 种 表 填 充 算 法 ， nesses RDU) se 进行 填充 。 


Ou 
BY A BES YT Da EP ANMA, AAM Ae A 
FE 遂 过 顺序 填充 这 些 表 的 条 目 ， 反 回 传播 算法 避免 了 重复 计算 许多 公 
共 子 表达 式 。 这 种 表 填 充 宁 上 略 有 时 个 称 为 动态 规划 (dynamic 


programming) . 


6.5.7 ”实例 : 用 于 MLP 训 练 的 反 向 传播 


作为 一 个 例子 ， 我 们 利用 反问 传播 算法 来 训练 多 层 感 知 机 。 


这 里 ， 我 们 考虑 一 个 上 只 有 单个 隐 沁 层 的 非常 简单 的 多 层 感 知 机 。 为 了 训 
练 这 个 模型 ， 我 们 将 使 用 小 批量 随机 梯度 下 降 算 法 。 反 辐 传 播 算法 用 于 
计算 单个 小 批量 上 的 代价 的 梯度 。 有 具体 来 说 ， 我 们 使 用 训练 集 上 的 一 小 
批量 实例 ， 将 其 规范 化 为 一 个 设计 窍 阵 于 以 及 相关 联 的 奖 标 签 回 量 y 。 

IZA The RR EE A = max{0, X wi) 。 为 了 从 化 表示 ， 我 们 在 
这 个 檬 型 中 不 使 用 偏 置 。 假 设 我 们 的 图 语言 包含 relu BRE, REVERT b 
对 Max{0, Zy) 表达 式 的 每 个 元 素 分 别 进行 计算 。 类 的 非 归 一 化 对 数 
概率 的 预测 将 随后 由 HW 给 出 。 假 设 我 们 的 图 语言 包含 cross_entropy 
操作 ， 用 以 计算 目标 y 和 由 这 些 未 归 一 化 对 数 概 认 定义 的 概 认 分 布 则 的 
AE MOIR TF BI AS SORE SS ART PRB me 。 最 小 化 这 个 交叉 燃 将 
执行 对 分 类 需 的 最 大 似 然 估 计 。 然 和 而， 为 了 使 得 这 个 例子 更 加 真实 ， 我 
们 也 包含 一 个 正则 项 。 总 的 代价 函数 为 


avi 2 a 
J = Juin +À X (wi) +o (w9) | (6.56) 
ij 


ij 
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图 6.11 FPP SAT RARR, MN BT PR Be AE COIS NB HE HE VU FB BAN 
的 单 层 MLP 示 例 所 产生 的 


这 个 示例 的 梯度 计算 图 实在 太 大 ， 以 至 村 绘制 或 者 阅读 都 将 是 乏味 的 。 
这 显示 出 了 反 回 传播 算法 的 优点 之 一 ， 即 它 可 以 目 动 生成 梯度 ， 而 这 种 
计算 对 于 软件 工程 师 来 说 需要 进行 卫 观 但 见长 的 手动 推导 。 


我 们 可 以 通过 观察 图 6.11 中 的 正 向 传播 图 来 粗略 地 描述 反 向 传播 算法 的 
行为 。 为 了 训练 ， 我 们 希望 计算 V way 和 Vwo- AWARA 
的 路 径 从 J 后 退 到 权重 : PELER ARAL ERAR 

价 。 权 重 衰减 代价 相对 简单 ， 它 总 是 对 WO 上 的 梯度 贡献 2 WO) 。 


男 一 条 通过 交叉 燃 代 价 的 路 人 径 稍 微 复 洒 一 些 。 令 G 是 由 cross_entropy 
操作 提供 的 对 未 归 一 化 对 数 概率 U O 的 梯度 。 反 癌 传 播 算法 现在 需要 
探索 两 个 不 同 的 分 文 。 在 较 短 的 分 文 上 ， 它 使 用 对 窍 阵 乘法 的 第 二 个 变 
量 的 反 回 传播 规则 ， BA! Gi 加 到 WO 的 梯度 上 。 男 一 条 更 长 些 的 
路 径 治 痢 网 络 逐 步 下 降 。 首 先 ， 反 回 传 播 算 法 使 用 对 窍 阵 乘法 的 第 一 个 
ZN REAM, WEY y J = G W 2)! 。 接 下 来 ，relu 操作 
使 用 其 反 辐 传播 规则 来 对 关于 UV 的 梯度 中 小 于 0 的 部 分 清 零 。 记 上 述 
结果 为 G'。 反 问 传 播 算法 的 最 后 一 步 是 使 用 对 matmul 操作 的 第 二 个 变 
量 的 反问 传播 规则 ， By | Gt! 加 到 W 的 梯度 上 。 


在 计算 了 这 些 梯 度 以 后 ， 棋 度 下 降 算 法 或 者 其 他 优化 算法 所 要 做 的 束 是 
使 用 这 些 栎 度 来 更 新 参数 。 


对 于 MLP， 计 算 成 本 主要 来 源 于 窃 阵 乘法 。 在 前 癌 传 播 阶段 ， 我 们 乘 以 
每 个 权重 窍 阵 ， 得 到 了 O(w) 数 量 的 乘 - 加 ， 其 中 w 征 权重 的 数量 。 在 反 
问 传 播 阶段 ， 我 们 乘 以 每 个 权重 窍 阵 的 转 置 ， 这 具有 相同 的 计算 成 本 。 

算法 主要 的 存储 成 本 是 我 们 需要 将 输入 存储 到 隐 嘱 层 的 非 线 性 中 去 。 这 
些 值 从 被 计算 时 开始 存储 ， 下 到 反 同 过 程 回 到 了 同一 点 。 因 此 存储 成 本 
是 O(mnph)， 其 中 m 古 小 批量 中 样本 的 数目 ，n1 是 隐藏 单元 的 数量 。 


6.5.8 ”复杂 化 
我 们 这 里 描述 的 反 向 传播 算法 要 比 实践 中 实际 使 用 的 实现 要 简单 。 


正如 前 面 所 a 到 的 ， 我 们 将 操作 的 定义 限制 为 返回 单个 张 量 的 函数 。 大 多 
数 软 件 实现 需要 文 持 可 以 返回 多 个 张 量 的 操作 。 例 如 ， 如 下 我 们 希望 计 
算 张 量 中 的 最 大 值 和 该 值 的 索引 ， 则 最 好 在 单 次 运算 中 计算 两 者 ， 因 此 
将 设 过 程 实现 为 具有 两 个 输出 的 操作 效率 更 部。 


我 们 还 没有 摘 述 如 何 控制 反问 传播 的 内 存 消耗 。 反 同 传 播 经 各 涉及 将 许 
多 张 量 加 在 一 起 。 在 村 系 方法 中 ， 将 分 列 计 算 这 些 张 量 中 的 每 一 个 ， 然 
后 在 第 二 步 中 对 所 有 这 些 张 量 求 和 。 村 素 方 法 具有 过 高 的 存储 瓶 贷 ， 可 
以 通过 保持 一 个 缓冲 郁 ， 并 且 在 计算 时 将 每 个 值 加 到 该 缓冲 融 中 来 避免 
该 瓶颈 。 


肥 同 传播 的 现实 实现 还 需要 处 理 各 种 数据 类 型 ， 例 如 32 位 浮 点 数 、64 位 
浮 反 数 和 整 型 。 处 理 这 些 类 型 的 末 略 需要 特 列 的 设计 考虑 。 


一 些 操 作 共 有 未 定义 的 梯度 ， 并 且 重 要 的 是 跟踪 这 些 情况 并 且 确 定 用 户 
TOR EB BE ne MEREN 


a FP EL AU CAS AIRE EE BLS E FE EY eo BE IZ AS 0 TE ORTESE BN ES 
FYI, AE ZETIA SPS Ari I EAA LA, (AR Ae 
要 知道 还 有 许多 的 精妙 之 处 存在 。 


6.5.9 ”深度 学 习 界 以 外 的 微分 


深度 学 习 界 在 荣 种 程度 上 已 经 与 更 广泛 的 计算 机 科学 界 隅 离开 来 ， 并 且 
在 很 大 程度 上 发 展 了 目 己 关于 如 何 进行 微分 的 文化 态度 。 一 般 来 说 ， 目 
动 微 分  Cautomatic differentiation) 领域 天 心 如 何以 算法 方式 计算 导 
数 。 这 里 摘 述 的 反 回 传播 算法 只 是 目 动 微分 的 一 种 方法 。 它 是 一 种 称 为 
反问 模式 黑 加 。” (reverse mode accumulation) 的 更 广泛 类 型 的 技术 的 特 
殊 情 况 。 其 他 方法 以 不 同 的 顺序 来 计算 链 式 法 则 的 子 表 达 式 。 一 般 来 

说 ， 硝 定 一 种 计算 的 顺序 使 得 计算 开销 最 小 ， 是 困难 的 问题 。 找 到 计算 
梯度 的 最 优 操作 序列 是 NP 完 全 问题 (Naumann，2008) ， 在 这 种 意义 

上 ， 它 可 能 需要 将 代数 表达 去 简化 为 它们 最 廉价 的 形式 。 


例如 ， 假设 有 变量 p 1 ， Prises p ， 表 示 概 率 ， 以 及 变量 z | ， Z79 «Ly 
表示 未 归 一 化 的 对 数 概 率 。 假 设 定义 


其 中 我 们 通过 指数 化 、 求 和 与 除法 运算 构建 softmax 函 数 ， 并 构造 交叉 
炳 损失 函数 ”一 一 》 pi; log di 。 人 类 数学 家 可 以 观察 到 J 对 zi 的 
导数 有 一 个 非 钊 简单 的 形式 : qi -pi; 反问 传播 算法 个 能 够 以 这 种 万 式 来 
简化 标 度 ， 而 是 会 通过 原始 图 中 的 所 有 对 数 和 指数 操作 袜 式 地 传播 村 
上 度 。 一 些 软 件 库 如 Theano (Bergstra et al. , 2010b; Bastien et al. , 
i 能 够 执行 霖 些 种 类 的 代数 华 换 来 改进 由 纯 反 同 传 播 算法 提出 的 
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的 计算 量 来 计算 时 ， 反 向 传播 保证 梯度 计算 的 计算 数目 和 前 向 计算 的 计 
算数 目 是 同一 个 量 级 ， 这 可 以 在 算法 6.2 中 看 出 ， 因 为 每 个 局 部 偏 导 数 


a VA Rei VA BE RA Sh Crh (6.53)) 中 相关 的 乘 和 加 都 只 需 计 算 一 
OU 

次 。 因 此 ， 总 的 计算 量 是 O(#edges)。 然 而 ， 可 能 通过 对 反问 传播 算法 构 
建 的 计算 图 进行 简化 来 减少 这 些 计 算 量 ， 并 日 这 是 NP 完全 问题 。 诸 如 
Theano 和 TensorFlow 的 实现 使 用 基于 匹配 已 知 简化 模式 的 试探 法 ， 以 便 
重复 地 尝试 去 简化 图 。 我 们 定义 反问 传播 仅 用 于 计 宽 标量 输出 的 梯度 ， 
但 是 反 向 传播 可 以 扩展 到 计算 Jacobian 和 矩阵 〈 该 Jacobian 和 矩阵 或 者 来 源 于 
图 中 的 k 个 不 同 标量 和 点 ， 或 者 来 源 于 包含 k 个 值 的 张 量 值 节 点 ) o PPR 
的 实现 可 能 需要 k 倍 的 计算 : 对 于 诛 始 前 回 图 中 的 每 个 内 部 标量 节点 ， 
朴 又 的 实现 计算 k 个 梯度 而 个 是 单个 杨 上 度 。 当 图 的 输出 数目 大 于 输入 的 
数目 时 ， 有 时 更 偏 癌 于 使 用 另外 一 种 形式 的 目 动 微分 ， 称 为 前 同 模 陈 累 
加 (forward mode accumulation) 。 前 同 模 式 计 算 已 经 被 提出 用 于 循环 
神经 网 络 梯度 的 实时 计算 ， 例 如 (Williams and Zipser, 1989) . 1% thik 
免 了 存储 整个 图 的 值 和 梯度 的 需要 ， 是 计算 效率 和 内 存 使 用 的 折 中 。 六 
问 模 了 式 和 后 回 模 陈 的 关系 关 似 于 左 乘 和 右 乘 一 系列 矩阵 之 间 的 关系 ， 例 
如 


ABCD (6.58) 
其 中 的 矩阵 可 以 认为 是 Jacobian 和 矩阵 。 人 例如， 如果 D 是 列 向 量 ， 而 A 有 


很 多 行 ， 那 么 这 对 应 于 一 幅 具 有 单个 输出 和 多 个 输入 的 图 ， 并 且 从 最 后 
开始 乘 ， 反 同 进 行 ， 只 需要 定 阵 -加 量 的 乘积 。 这 对 应 看 反 同 模式 。 相 
反 ， 从 元 边 开 始 乘 将 涉 及 一 系列 的 矩阵 - 算 阵 乘积 ， 这 使 得 总 的 计算 变 
JFE. AMW. WR A 的 行 数 小 于 D NBL, WMA BAe EA 
EEA, KIMA M EN. 


在 机 此 学 习 以 外 的 许多 社区 中 ， 更 第 见 的 是 使 用 传统 的 编程 语言 来 耳 接 
实现 微分 软件 ， 例 如 用 Python 或 者 C 来 编程 ， 并 且 自 动 生成 使 用 这 些 语 
言 编写 的 不 同 函数 的 程序 。 在 深度 学 习 界 中 ， 计 算 图 通常 使 用 由 专用 库 
创建 的 明确 的 数据 结构 表示 。 专 用 方法 的 缺点 是 需要 库 开 友人 员 为 每 个 
操作 定义 bprop 方法 ， 并 且 限 制 了 库 的 用 户 仅 使 用 定义 好 的 那些 操作 。 
然而 ， 专 用 方法 也 允许 定制 每 个 操作 的 反 回 传 播 规则 ， 人 允许 开 友 者 以 非 
显而易见 的 方式 提高 速度 或 稳定 性 ， 对 于 这 种 方式 自动 的 过 程 可 能 不 能 
复制 。 


因此 ， 友 加 传播 不 是 计算 梯度 的 唯一 方式 或 最 佳 方式 ， 但 它 是 一 个 非 蜗 
实用 的 方法 ， 继 续 为 深度 学 习 社 区 服务 。 在 未 来 ， 深 度 网 络 的 微分 技术 
可 能 会 近 高 ， 因 为 深度 学 习 的 从 业者 更 加 避 得 了 更 广 沁 的 目 动 敏 分 领域 
的 进步 。 


6.5.10 ”高 阶 微 分 


一 些 软件 框架 支持 使 用 高 阶 导数 。 在 深 友 学习 软件 框架 中 ， 这 至少 包 括 
Theano 和 TensorFlow。 这 些 库 使 用 一 种 数据 结构 来 摘 述 要 被 微分 的 原始 
疯 数 ， 它 们 使 用 相同 类 型 的 数据 结构 来 挡 述 这 个 函数 的 导数 表达 式 。 这 
意味 看 人 号 微分 机 制 可 以 应 用 于 导数 (从 而 产生 融 阶 导数 )。 


在 深度 学 习 的 相关 领域 ， 很 少 会 计算 标量 函数 的 单个 二 阶 导 数 。 相 反 ， 

我 们 通常 对 Hessian 窜 阵 的 性 质 比 较 感 兴趣 。 如 果 我 们 有 冰 数 

fF: RP” — R ， 那 么 Hessian 算 阵 的 大 小 是 nxn。 在 典型 的 深度 学 
习 应 用 中 ，n 将 是 模型 的 参数 数量 ， 可 能 很 容易 达到 数 十 亿 。 因 此 ， 完 

# A] Hessian te REE RAN RE ZEN o 


典型 的 深度 学 习 方 法 是 使 用 Krylov 方 法 (Krylov method) ， 而 不 是 显 
式 地 计算 Hessian 起 阵 。Krylov 方 法 是 用 于 执行 各 种 操作 的 一 组 迭代 反 
术 ， 这 些 操 作 包 括 像 近 似 求解 矩阵 的 逆 或 者 近似 窍 隆 的 特征 值 /特征 问 


ES MAME HAE pE- H ERY VA SPE EAA] ERIE o 


J I (EHesssian te kE KEH Krylov iik, RITR AA Reit Hessian 
E H 和 一 个 任意 向 量 v 间 的 乘积 即 可 。 实 现 这 一 目标 的 一 种 直观 方法 
(Christianson, 1992) 是 


Hv = Vz (Vf e] (6.59) 


该 表达 却 中 两 个 梯度 的 计算 都 可 以 由 适当 的 软件 库 目 动 完 成 。 注 意 ， 外 
PNA BE KIA TU re PN EB HH BE ASIA I HY BRI BC EAI TB PE o 
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件 不 要 对 产生 v 的 图 进行 微分 。 


者 为 0 的 one-hot 回 量 。 
6.6 ”历史 小 记 


前 馈 网 络 可 以 被 视 为 一 种 珊 效 的 非 线 性 函数 近似 硕 ， 它 以 使 用 标 度 下 降 
来 最 小 化 孙 数 近似 误 基 为 基础 。 从 这 个 角度 来 看 ， 现 代 前 人 馈 网 络 是 一 上 般 
孙 数 近似 任务 的 几 个 世纪 进步 的 结 串 。 


处 于 反问 传播 算法 上 的 层 的 链 式 法 则 是 17 世 纪 发 明 的 (Leibniz，1676; 
L'Hôpital, 1696) 。 微 积分 和 代数 长 期 以 来 被 用 于 求解 优化 问题 的 封闭 
形式 ， 但 梯度 下 降 直 到 19 世 纪 才 作为 优化 问题 的 一 种 迭代 近似 的 求解 方 
法 被 引入 (Cauchy, 1847) 。 


从 20 世 纪 40 年 代 开 始 ， 这 些 函 数 近 似 技术 被 用 于 导出 诸如 感知 机 的 机 鼎 
学 习 模 型 。 然 而 ， 最 早 的 模型 都 是 基于 线性 模型 。 来 日 包括 Marvin 
Minsky 的 批评 指出 了 线性 模型 族 的 几 个 缺陷 ， 例 如 它 无 法 学 习 XOR 卫 
数 ， 这 导致 了 对 整个 神经 网 络 方法 的 抵制 。 


学 习 非 线性 函数 需要 多 层 感 知 机 的 发 展 和 计算 该 模型 柳 度 的 方法 。 基 于 
动态 规划 的 链 却 法 则 的 高 效应 用 开始 出 现在 20 世 纪 60 年 代 和 70 年 代 ， 主 
要 用 于 控制 领域 (Kelley, 1960; Bryson and Denham, 1961; Dreyfus, 


1962; Bryson and Ho, 1969; Dreyfus, 1973) ， 也 用 于 有 灵敏度 分 析 
(Linnainmaa, 1976) . Werbos (1981) 提出 应 用 这 些 技术 来 训练 人 工 
神经 网 络 。 这 个 想法 以 不 同 的 方式 航 独 立地 重新 及 现 后 〈LeCun， 
1985; Parker, 1985; Rumelhart et al. , 1986a) ， 最 终 在 实践 中 得 以 发 
展 。《 并 行 分 布 式 处 理 》 (Parallel Distributed Processing) 一 书 在 其 中 
一 章 提 供 了 第 一 次 成 功 使 用 反 同 传播 的 一 些 实验 的 结果 (Rumelhart et 
al. , 1986b) ， 这 对 反 回 传播 的 普及 做 出 了 巨大 的 页 献 ， 并 且 开 局 了 一 
个 研究 多 层 神 经 网 络 非常 活跃 的 时 期 。 然 和 而， 该 书 作 者 提出 的 想法 ， 特 
别 是 Rumelhart 和 Hinton 提 出 的 想法 远 远 超过 了 及 同 传 播 。 它 们 包括 一 些 
关键 思想 ， 关 于 可 能 通过 计算 实现 认 知 和 学 习 的 儿 个 核心 方面 ， 后 来 被 
冠 以 “联结 主义 ”的 名 称 ， 因 为 它 强 调 了 神经 元 之 间 的 连接 作为 学 习 和 记 
忆 的 轨迹 的 重要 性 。 特 别 地 ， 这 些 想 法 包括 分 布 式 表示 的 概念 (Hinton 
etal., 1986) 。 


在 反问 传播 的 成 功 之 后 ， 神 经 网 络 研究 获得 了 普及 ， 并 在 20 世 纪 90 年 代 
倪 达 到 融 峰 。 随 后 ， 其 他 机 右 学 习 拉 术 变 得 更 受 欢迎 ， 和 直到 2006 年 开始 
的 现代 深度 学 习 复 兴 。 


现代 前 馈 网 络 的 核心 思想 自 20 世 纪 80 年 代 以 来 没有 发 生 重 大 变化 ， 仍 然 
使 用 相同 的 反 回 传播 算法 和 相同 的 梯度 下 降 方法 。1986-2015 和 年， 神经 
网 络 性 能 的 大 部 分 改进 可 归 因 于 两 个 因 系 : 第 一 ， 较 大 的 数据 集 减 少 了 
统计 泛 化 对 神经 网 络 的 挑战 的 程度 。 第 二 ， 神 经 网 络 由 于 更 强大 的 计算 
机 和 更 好 的 软件 基础 设施 已 经 变 得 更 大 。 然 而 ， 少 量 算 法 上 的 变化 也 显 
著 改 善 了 神经 网 络 的 性 能 。 


其 中 一 个 算法 上 的 变化 是 用 损失 函数 的 交叉 燃 族 伍 代 均 方 误 埃 。 均 方 误 
FALE 20TH 20 802ERALOOZE TRL IT , (AT OR AC SM din RAR, FERA 
ADA ZA Jig FE EP AEE TE Sat th RAL A J FEA) YAR EHX 
失 大 大 提高 了 具有 sigmoid 和 softmax 输 出 的 模型 的 性 能 ， 而 当 使 用 均 方 
误差 损失 时 会 存在 饱和 和 学 习 组 慢 的 问题 。 


尺 一 个 最 兰 改 善 表 饶 网 络 性 能 的 算法 上 的 主要 变化 是 使 用 分 段 线性 隐藏 
单元 来 蔡 代 sig-moid 隐 羧 单元 ， 例 如 用 整流 线性 单元 。 使 用 max{0,z} 函 
数 的 整流 在 早期 神经 网 络 中 已 经 和 被 引入 ， 并 且 至 少 可 以 退 溯 到 认 知 机 
(Cognitron) 和 神经 认 知 机 CNeocognitron) (Fukushima, 1975, 
1980) 。 这 些 早期 的 模型 没有 使 用 整流 线性 单元 ， 而 是 将 整流 用 于 非 线 


性 函数 。 尽 管 整流 在 早期 很 普及 ， 在 20 世 纪 80 年 代 ， 整 流 很 大 程度 上 家 
sigmoid 所 取代 ， 也 许 是 因为 当 神 经 网 络 非常 小 时 ，sigmoid 表 现 更 好 。 

到 21 世 纪 初 ， 由 于 有 些 迷 信 的 观念 认为 ， 必 须 避 免 上 共有 不 可 导 氮 的 激活 
图 数 ， 所 以 避免 了 整流 线性 单元 。 这 在 2009 年 开始 发 生 改 变 。Jarrett et 
al. (2009b) 观察 到 ， 在 神经 网 络 结构 设计 的 几 个 不 同 因 素 中 “使 用 整 
流 非 线性 是 提高 识别 系统 性 能 的 最 重要 的 唯一 因 系 ”。 


对 于 小 的 数据 集 ，Jarrett et al. (€2009b) 观察 到 ， 使 用 整流 非 线 性 其 至 
比 尝 习 隐 减 层 的 权重 值 更 加 重要 。 随 机 的 权重 足以 通过 整流 网 络 传播 有 
用 的 信息 ， 人 允许 在 顶部 的 分 次 霹 层 学 习 如 何 将 不 同 的 特征 同 量 映射 到 次 


标识 。 


当 有 更 多 数据 可 用 时 ， 和 学 习 开 始 提 取 足 够 鸣 有 用 知识 来 超越 随机 选择 参 
数 的 性 能 。Glorot et al. (2011a) 说 明 ， 在 深 友 整流 网 络 中 的 学 习 比 在 
激活 函数 具有 曲率 或 两 侧 饱 和 的 深度 网 络 中 的 学 习 更 容易 。 


整流 线性 单元 还 具有 历史 意义 ， 因 为 它们 表明 神经 科学 继续 对 深 皮 学 习 
算法 的 发 展 产 生 影 响 。Glorot et al. (2011a) 从 生物 学 考虑 整流 线性 单 
元 的 导出 。 半 整流 非 线 性 蔬 在 挡 述 生物 神经 元 的 这 些 性 质 : (1) 对 于 
某 些 输入 ， 生 物 神经 元 是 完全 不 活跃 的 。 (2) 对 于 某 些 输入 ， 人 生物 神 
经 元 的 输出 和 它 的 输入 成 比例 。 (3) 大 多 数 时 间 ， 生 物 神 经 元 是 在 它 
们 不 活跃 的 状态 下 进行 操作 〈 即 它们 应 该 具有 稀 玖 激活 (sparse 


activation) ) 。 


当 2006 年 深度 学 习 开始 现代 复兴 时 ， 前 馈 网 络 仍然 有 不 展 的 声誉 。 从 
2006~2012 和 年， 人们 普 明 认为 ， 前 饶 网 络 不 会 表现 良好 ， 除 非 它 们 得 到 
其 他 模型 的 辅助 ， 例 如 概率 模型 。 现 在 已 经 知道 ， 只 要 具备 适当 的 资源 
和 工程 实践 ， 前 馈 网 络 表现 得 非常 好 。 今 天 ， 前 馈 网 络 中 基于 梯度 的 学 
习 被 用 作 发 展 概率 模型 的 工具 ， 例 如 第 20 章 中 描述 的 变 分 目 编 码 器 和 生 
成 式 对 抗 网 络 。 前 馈 网 络 中 基于 梯度 的 学 习 目 2012 年 以 来 一 直 被 视 为 一 
种 强大 的 搁 术 ， 并 应 用 于 许多 其 他 机 恬 学 习 任 务 ， 而 不 是 被 视 为 必须 由 
其 他 技术 支持 的 不 可 靠 技术 。2006 年 ， 业 内 使 用 无 监督 学 习 来 支持 监督 
oJ. DEP WRI, ABS SIR SSL. 


前 馈 网 络 还 有 许多 未 实现 的 潜力 。 未 来 ， 我 们 期 望 它们 用 于 更 多 的 任 
务 ， 优 化 算法 和 模型 设计 的 进步 将 进一步 所 高 它们 的 性 能 。 本 章 主要 拍 


述 了 神经 网 络 模型 族 。 在 接 下 来 的 革 市 中 ， 我 们 将 讨论 如 何 使 用 这 些 模 
型 一 一 如 何 对 它们 进行 正则 化 和 训练 。 


(1) FETE: 这 里 原文 是 “If we use a diagonal matrix, or a scalar times the diagonal matrix...” , 
BI tn AR BT FT A EME, Br EP he He DT FE BE. ”， 但 一 个 标量 乘 以 对 角 乍 阵 和 
对 角 和 矩阵 没 区 别 ， 结 合 上 下 文 可 以 看 出 ， 这 里 原作 者 误 把 “identity” 写 成 了 “diagonal matrix”, 
此 这 里 采用 “常数 乘 以 单位 矩阵 ”的 详 法 。 





(2) 之 所 以 认为 c 是 潜在 的 ， 是 因为 我 们 不 能 下 接 在 数据 中 观测 到 它 ， 给 定 输入 x 和 目标 y， 不 
可 能 确切 地 知道 是 哪个 高 斯 组 件 产 生 y ， 但 我 们 可 以 想象 y 是 通过 选择 其 中 一 个 来 产生 的 ， 并 上 
将 那个 未 被 观测 到 的 选择 作为 随机 变量 。 


第 7 革 ”深度 学 习 中 的 正则 化 


机 幽 学 习 中 的 一 个 核心 问题 是 设计 不 仅 和 在 训练 数据 上 表现 好 ， 而 且 能 在 

新 输入 上 泛 化 好 的 算法 。 在 机 禹 学习 中 ， 许 多 末 上 略 被 显 式 地 设计 来 减少 

讽 试 误 友 【可 能 会 以 增 大 训练 误 大 为 代价 ) 。 这 些 条 略 被 统称 为 正则 
化 。 我 们 将 在 后 文 看 到 ， 深 度 学 习 工 作者 可 以 使 用 许多 不 同形 式 的 正则 
Ha 
oma 


第 5 章 介绍 了 泛 化 、 欠 执 合 、 过 拟 合 、 偏 差 、 方 差 和 正则 化 的 基本 概 
念 。 如 果 你 不 熟悉 这 些 概念 ， 请 先 参考 第 5 章 ， 然 后 再 继续 阅读 本 章 . 


在 本 章 中 ， 我 们 会 更 详细 地 介绍 正则 化 ， 重 点 介绍 深度 模型 〈 或 组 成 深 
度 模 型 的 模块 ) 的 正则 化 策略 。 


本 章 中 的 东 坚 章节 涉及 机 天 学 习 中 的 标准 概念 。 如 末 你 已 经 见 悉 了 这 些 
概念 ， 可 以 随意 跳 过 相 天 革 市 。 然 而 ， 本 章 有 的 大 多 数 内 容 古 天 于 这 些 基 
本 概念 在 特定 神经 网 络 中 的 扩展 概念 。 


在 第 5.2.2 玫 中 ， 我 们 将 正则 化 定义 为 "对 学 习 算法 的 修改 一 一 旨 在 减少 
沁 化 误 弄 而 个 十 训练 误 夺 ">。 目 前 有 许多 正则 化 策略 。 有 些 末 上 略 同 机 桥 
学 习 模 型 添加 限制 参数 值 的 额外 约束 。 有 些 蛇 略 癌 目标 函数 增加 额外 项 
来 对 参数 值 进行 软 约 束 。 如 采 我 们 细心 选择 ， 这 些 额 外 的 约束 和 惩 昼 可 
以 改善 模型 在 名 试 案 上 的 表现 。 有 时 候 ， 这 些 约束 和 惩 玉 被 设 计 为 编码 





特定 类 型 的 先 验 知识 ; AIRES (5, AEA BT A Td BL TT AY hi Fi) EP 
A, Epemi Che. AI, RT AZ ROS BE NR E AY [A ee 
的 。 其 他 形式 的 正则 化 ， 如 被 称 为 集成 的 方法 ， 则 结合 多 个 假说 来 解释 
训练 数据 。 


在 深度 学 习 的 背景 下 ， 大 多 数 正则 化 集 略 部 会 对 信 计 进行 正则 化 。 估 计 
的 正则 化 以 偏 下 的 增加 换取 方 天 的 减少 。 一 个 有 效 的 正则 化 是 有 利 

的 “交易 ”， 也 就 十 能 显 壮 减少 方 天 而 个 过 度 增加 偏 码 。 我 们 在 第 5 革 中 
讨论 泛 化 和 过 拟 合 时 ， 主 要 侧重 模型 族 训练 的 3 种 情况 : (1) 不 包括 真 
实 有 的 数据 生成 过 程 一 一 对 应 欠 拟 合 和 含有 仿 和 友 的 情况 ; (2) 匹配 真实 
数据 生成 过 程 ; (3) 除了 包括 真实 的 数据 生成 过 程 ， 还 包括 许多 其 他 
可 能 的 生成 过 程 一 一 方 关 《和 而 不 是 俩 兰 ) 主 寻 的 过 拟 合 。 正 则 化 的 目标 
征 使 模型 从 第 三 种 情况 较 化 为 第 二 种 情况 。 


在 实践 中 ， 过 于 复 淋 的 模型 族 不 一 定 包括 目标 函数 或 其实 数据 生成 过 

程 ， 其 至 也 不 包括 近似 过 程 。 我 们 几乎 从 未 知晓 真实 数据 的 生成 过 程 ， 
所 以 我 们 永远 不 知道 被 倍 计 的 柑 型 族 是 人 否 包 括 生 成 过 程 。 然 而 ， 深 展 学 
习 算法 的 大 多 数 应 用 都 是 针对 这 样 的 情况 ， 其 中 真实 数据 的 生成 过 程 几 
PE TERR TR Zh TREES) BAI i A TRA AR, GO 
像 、 音 频 序 列 和 文本 ， 本 质 上 这 些 领 域 的 真实 生成 过 程 涉及 模拟 整个 宇 
eg 

(模型 族 ) 。 


这 意味 着 控制 模型 的 复杂 度 不 是 找到 合适 规模 的 模型 ( 带 有 正确 的 参数 
个 数 ) 这 样 一 个 简单 的 事情 。 相 反 ， 我 们 可 能 会 发 现 ， 或 者 说 在 实际 的 
深度 学 习 场 景 中 我 们 几乎 总 是 会 发 现 ， 最 好 的 拟 合 模型 (从 最 小 化 泛 化 
误差 的 意义 上 ) 是 一 个 适当 正则 化 的 大 型 模型 。 

现在 我 们 回顾 几 种 策略 ， 以 创建 这 些 正则 化 的 大 型 深度 模型 。 
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许多 正则 化 方法 通过 对 目标 函数 J 添加 一 个 参数 范 数 惩罚 D(8) R 








模型 (如 神经 网 络 、 线 性 回归 或 逻辑 回归 〉 的 学 习 能 力 。 我 们 将 正则 化 
后 的 目标 函数 记 为 卫 : 


~ 


J(0; X,Yy) = J(O; X, y)+aNQ(0) yah 
其 中 ae [0, œ) 是 权衡 范 数 惩罚 项 和 标准 目标 函数 /及 ; 0) 相对 


页 献 的 超 参数 。 将 说 为 0 表示 没有 正则 化 。a 越 大 ， 对 应 正则 化 惩 避 越 
大 。 


当 我 们 的 训练 算法 最 小 化 正则 化 后 的 目标 函数 了 时 ， 它 会 降低 原始 目标 
J 关于 训练 数据 的 误 天 并 同时 减 小 在 菏 些 衡量 标准 下 参数 0 《或 参数 子 
R) 的 规模 。 选 择 不 同 的 参数 范 数 & 会 偏好 不 同 的 解 。 在 本 节 中 ， 我 们 
会 讨论 各 种 范 数 惩罚 对 模型 的 影响 。 


在 探 完 不 同 范 数 的 正则 化 表现 之 前 ， 需 要 说 明 一 下 ， 和 在 神经 网 络 中 ， 参 
数 包括 每 一 层 仿 射 变 换 的 权重 和 俩 年 ， 我 们 通 币 只 对 权重 做 惩 如 而 不 对 
俩 站 做 正则 惩 吉 。 久 确 拟 合 俩 症 所 需 的 数据 通 种 比拟 合 权 重 少 得 多 。 每 
个 权重 会 指定 两 个 变量 如 何 相 互 作用 。 我 们 需要 在 各 种 条 件 下 观察 这 两 
个 变量 才能 民 好 地 拟 合 权重 。 而 每 个 俩 站 仅 控 制 一 个 单 变 量 。 这 意味 
看 ， 我 们 不 对 其 进行 正则 化 也 不 会 寻 致 太 大 的 方 牵 。 帮 外， 正则 化 仿 置 
参数 可 能 会 导致 明显 的 欠 拟 合 。 因 此 ， 我 们 使 用 癌 量 w 表示 所 有 应 受 范 
数 惩 避 影响 的 权重 ， 而 同 量 0 表示 所 有 参数 (包括 w 和 无须 正 则 化 的 参 
ŽO o 


EMAAR R ANAA AARE EAE, HR 


配 个 同 的 a 系数 。 寻 找 合适 的 多 个 超 参 数 的 代价 很 大 ， 因 此 为 了 减少 搜 
系 空间 ， 我 们 会 在 所 有 层 使 用 相同 的 权重 桶 减 。 


7.1.1 工 < 参 数 正 则 化 

在 第 5.2 节 中 我 们 已 经 看 到 过 最 简单 而 又 最 常见 的 参数 范 数 惩罚 ， 即 通 
TERNES 〈weight decay) HIL 4 BRU AGE TH o a 
es RREME (G) 一 1 Jw] 作 


“各 
权重 更 加 接近 原点 由 -。 在 其 他 学 术 圈 ，L 2 也 被 称 为 岭 回归 或 Tikhonov 


正则 。 


我 们 可 以 通过 研究 正则 化 后 目标 函数 的 柳 度 ， 洞 寺 一 些 权重 爱 减 的 正则 
化 表现 。 为 了 信 音 起见 ， 我 们 假定 其 中 没有 仿 置 参数 ， 因 此 09 axe w 
这 样 一 个 模型 具有 以 下 总 的 目标 函数 : 


jw; X, y) = Sw" w+ Jw; X, y) (7.2) 
与 之 对 应 的 梯度 为 

Vo (w; X, y) = aw + Vu J(w; X, y) (7.3) 
(FL EP EAE, BUST DAR ENT: 

w — w—e(aow + VyJ(w;X.y)) (7.4) 
换 种 写法 就 是 

w — (1—ca)w — Vu J (w; X, y) (7.5) 


我 们 可 以 看 到 ， 加 入 权重 概 减 后 会 引起 学 习 规 则 的 修改 ， 即 在 每 步 执行 
通 利 的 格 度 更 新 之 前 先 收缩 权 重 问 量 《 将 权重 同 量 乘 以 一 个 季 数 因 
T) 。 这 是 单个 步骤 及 生 的 变化 。 但 是 ， 在 训练 的 整个 过 程 会 及 生 什 么 
WE ? 


我 们 进一步 简化 分 析 ， 令 人 4)” 为 未 正则 化 的 目标 函数 取得 最 小 训练 误 
差 时 的 权重 向 量 ， 即 Wu” = arg min, J(w) ， 并 在 1) 二 的 邻 域 
对 目标 函数 做 二 次 近似 。 如 果 目 标 函 效 确 实 是 二 次 的 《如 以 均 方 误 雪 拟 
合 线性 回归 模型 的 情况 ) ， 则 该 近似 是 完美 的 。 近 似 的 了 (9) 如 下 


j0) = J(w*) + 5(w — w*) H(w 一 oo (7.6) 


其 中 H 是 ] 在 01)* 处 计算 的 Hessian 矩 阵 〈 关 于 w) 。 因 为 41)” 被 定 
义 为 最 优 ， 即 梯度 消失 为 0， 所 以 该 二 次 近似 中 没有 一 阶 项 。 同 样 地 ， 
因为 01) ”是 J 的 一 个 最 优点 ， 我 们 可 以 得 出 瑟 是 半 正 定 的 结论 。 


当 了 取得 最 小 时 ， 其 梯度 


Vwi (w) = H(w — w*) (7.7) 
为 0。 


为 了 研 客 权重 要 减 市 来 的 影响 ， 我 们 在 承 《〈7.7) 中 添加 权重 受 减 的 棉 
度 。 现 在 我 们 探讨 最 小 化 正则 化 后 的 了 。 我 们 使 用 变量 YV) 表示 此 时 的 


最 优点: 


aw + H(w—w")=0 (7.8) 
(H +al)w = Hw’* (7.9) 
=(H+al)'Hw* (7.10) 


当 a 趋 同 于 0 时 ， 正则 化 的 解 QL 会 趋向 fq1)”。 那 么 当 a 增 加 时 会 发 生 什 
AE? BA H 是 实 对 称 的 ， 所 以 我 们 可 以 将 其 分 解 为 一 个 对 角 和 矩阵 A 
和 一 组 特征 向 量 的 标准 正 交 基 Q, EAH = QAQ 。 将 其 应 用 
于 式 〈7.10) ， 可 得 


w=(QAQ' +al)'QAQ' w* (7.11) 
=[Q(A + a1) Q']'QAQ' wr’ (7.12) 
= Q(A+tal) AQ w* (7.13) 


BANAT UE SSUES SOAR ETE E H 的 特征 问 量 所 定义 的 轴 缩 放 
ay 。 具 体 来 说 ， 我 们 会 根据 J - 因子 缩放 与 H 第 i 个 特征 向 量 
对 齐 的 1) ”的 分 量 。 (不 妨 查看 图 2.3， 回顾 这 文 种 缩放 的 原理 ) 。 


沿 着 H 特征 值 较 大 的 方向 (如 入 ， 汪 > a ) 正则 化 的 影响 较 小 。 而 
入 XK a 的 分 量 将 会 收缩 到 几乎 为 零 。 这 种 效应 如 图 7.1 所 示 。 











图 7.1 L? (或 权重 衰减 ) 正则 化 对 最 佳 w 值 的 影响 。 实 线 椭圆 表示 没有 正则 化 目标 的 等 什 
线 。 虚 线 圆圈 表示 L A 正则 化 项 的 等 值 线 。 在 fl) 点 ， 这 两 个 竞争 目标 达到 平衡 。 目 标 函 数 ] 的 
Hessian 的 第 一 维特 征 值 很 小 。 当 从 201 水 平移 动 时 ， 目 标 函 数 不 会 增加 得 太 多 。 因 为 目标 函 
数 对 这 个 方向 没有 强烈 的 偏好 ， 所 以 正则 化 项 对 该 轴 具 有 强烈 的 影响 。 正 则 化 项 将 w 1 拉 向 
零 。 而 目标 函数 对 沿 着 第 二 维 远离 YL) * 的 移动 非常 敏感 。 对 应 的 特征 值 较 大 ， 表 示 高 曲率 。[ 
此 ， 权 重 衰 减 对 w 2 的 位 置 影响 相对 较 小 


只 有 在 显著 减 小 目标 函数 方 同 上 的 参数 会 剑 留 得 相对 完好 。 在 无 助 于 目 
标 函 数 减 小 的 方 回 (对 应 Hessian 窜 阵 较 小 的 特征 值 ) 上 改变 参数 不 会 显 
车 增加 构 上 度 。 这 种 不 香 要 方 同 对 应 有 的 分 量 会 在 训练 过 程 中 因 正 则 化 而 爱 
减 挥 。 

目前 为 止 ， 我 们 讨论 了 权重 豪 减 对 优化 一 个 抽象 通用 的 二 次 代价 函数 的 
影响 。 这 些 影响 具体 是 怎么 和 机 堪 学 习 关 联 的 呢 ? 我 们 可 以 研究 线性 回 
归 ， 它 的 真实 代价 函数 是 二 次 的 ， 因 此 我 们 可 以 使 用 相同 的 方法 分 析 。 
再次 应 用 分 析 ， 我 们 会 在 这 种 情况 下 得 到 相同 的 结果 ， 但 这 次 我 们 使 用 
训练 数据 的 术语 表述 。 线 性 回归 的 代价 函数 是 平方 误 和 天 之 和 : 

(Xw-y)' (Xw- y) (7.14) 


我 们 添加 L “正则 项 后 ， 目 标 函 数 变 为 








1 
(Xw —y)'(Xw-—y)+ zew w (7.15) 


这 将 正规 方程 的 解 从 
w= (XX X) I!X vy (7.16) 
w=(X'X+al)'X'y (7.17) 


sk (7.16) FRERE | X Spar aM X BUELL. L? 正则 项 
将 这 个 矩阵 蔡 换 为 式 〈7.17) PAX! X 十 aT)-1 ， 这 个 新 矩阵 与 原 
来 的 是 一 样 的 ， 不 同 的 仅仅 是 在 对 角 加 了 了 aq。 这 个 滤 隆 的 对 角 项 对 应 每 
个 输入 特征 的 方差 。 我 们 可 以 看 到 ，L ” 正则 化 能 让 学 习 算 法 “感知 ”到 
具有 较 遍 方差 的 输入 x ， 因 此 与 输出 目标 的 协 方 震 较 小 《相对 增加 方 
Ze) 的 特征 的 权重 将 会 收缩 。 


7.1.2 Li 正则 化 


L “ 权重 襄 减 是 权重 桶 减 最 名 见 的 形式 ， 我 们 还 可 以 使 用 其 他 的 方法 限 
制 模型 参数 的 规模 。 一 个 选择 是 使 用 L 正则 化 。 


形式 地 ， 对 模型 参数 w 的 LI 正则 化 被 定义 为 
(0) = lol = >》 [wi (7.18) 


‘ 


即 各 个 参数 的 绝对 值 之 和 中-。 接 着 我 们 将 讨论 L | 正则 化 对 简单 线性 回 
归 模型 的 影响 ， 与 分 析 L 2 正则 化 时 一 样 不 考虑 偏 置 参数 。 我 们 尤其 感 
兴趣 的 是 找 出 L1 和 L? 正则 化 之 间 的 差异 。 与 L 2 权重 衰减 类 似 ， 我 们 也 
可 以 通过 缩放 惩罚 项 Q 的 正 超 参 数 a 来 控制 L ! 权重 衰减 的 强度 。 因 此 ， 
正则 化 的 目标 函数 .J(w: X, y) 如 下 所 示 


J(w; X,y) = allw] + J(w; X,Yy) (7.19) 


对 应 的 标 度 (实际 上 是 次 梯度 )〉: 


Vwd(w;X,y) = asign(w) + VuJ(w; X,y) (7.20) 
其 中 sign( w ) 只 是 简单 地 取 w 各 个 元 素 的 正 负 号 。 


观察 式 〈7.20) ， 我 们 立刻 发 现 L 1 的 正则 化 效果 与 L“ 大 不 一 样 。 具 体 
来 说 ， 我 们 可 以 看 到 正则 化 对 梯度 的 影响 不 再 是 线性 地 缩放 每 个 w ;; 
而 是 添加 了 一 项 与 sign(w ; ) 同 号 的 常数 。 使 用 这 种 形式 的 梯度 之 后 ， 我 
们 不 一 定 能 得 到 .1( 天 ,V; w) 二 次 近似 的 直接 算术 解 CL? 正则 化 时 
可 以 ) 。 


简单 线性 模型 具有 二 次 代价 函数 ， 我 们 可 以 通过 泰勒 级 数 表 示 。 或 者 我 
们 可 以 设想 ， 这 是 逼近 更 复杂 模型 的 代价 函数 的 截断 泰勒 级 数 。 在 这 个 
设 定 下 ， 梯 度 由 下 式 给 出 


Vwi (w) = H(w — w*) (7.21) 
同样 ， H 是 J 在 V1) ”处 的 Hessian 和 矩阵 (天 于 w)。 
由 于 L 惩 居 项 在 完全 一 般 化 的 Hessian 的 情况 下 ， ne 的 
代数 表达 式 ， 因 此 我 们 将 进一步 刹 化 假设 Hessian 是 对 角 的 ， 
H = diag (| H1 1, aa oe all HEN; i pi 0 . UR Zk 


性 回归 问题 中 的 数据 已 被 预 处 理 《如 可 以 使 用 PCA) ， 去 除了 输入 特征 
之 则 的 相关 性 ， 那 么 这 一 假设 成 立 。 


我 们 可 以 将 -正则 化 目标 函数 的 二 次 近似 分 解 成 天 于 参数 的 求 和 : 


J(w;X,y) = (本 X,y) +5 (wi — w*)? + aļwi | (7.22) 





如 下 列 形式 的 解析 解 〈 对 每 一 维 i) 可 以 最 小 化 这 个 近似 代价 函数 : 





= | } (7.23) 


wi = sign(w; ) max { Ww; 


MEM, Swe > 0 的 情形 ， 会 有 两 种 可 能 结果 


. 六 | 
awe < 7 4 情况 。 正 则 化 后 目标 中 的 w; 最 优 值 是 w 
Ls 1 


; 一 0。 mere X. y) 对 J(w:; X, y) 的 贡献 被 抵消 ， 
L1 正则 化 项 将 w， 推 至 0。 


(2) W; Hew 4 情况 。 MAUREEN 





的 最 优 值 推 公 0， 而 仅仅 在 那个 方 同 上 移动 H, pA 


ES Q 
w <0 的 情况 与 此 类 似 ， 但 是 L1 惩罚 项 使 w; 更 接近 0 MET 
; bat 
) 或 者 为 0。 


相 比 L“ 正则 化 , Lt 正则 化 会 产生 更 稀疏 Csparse) 的 解 。 此 处 稀 政 性 
指 的 是 最 优 值 中 的 一 些 参数 为 0。 和 EL “ 正则 化 相 比 ， L 正则 化 的 稀世 
性 具有 本 质 的 不 同 。 式 〈7.13) 给 出 了 L“ IE SU ORY EQ gy 。 如果 我 们 使 
H Hessian jE H We 1 on ; 
重新 考虑 这 个 等 式 ， 会 发 现 WwW; = He 。 如果?0O7 个 是 
X, BAW; 也 会 保持 非 零 。 这 表明 L “ a 
而 工 工 正则 化 有 可 能 通过 足够 大 的 a 实 现 稀 芷 。 


由 L t! 正则 化 导出 的 稀 牙 性 质 已 经 被 广泛 地 用 于 特征 选择 (feature 
selection ) 机 制 。 特 征 选 择 从 可 用 的 特征 子 集 选 择 出 有 意义 的 特征 ， 化 

简 机 器 学 习 问 题 。 闭 名 的 LASSO (Tibshirani, 1995) (Least Absolute 
mel and Selection Operator) 模型 将 L1 惩罚 和 线性 模型 结合 ， 并 使 
用 最 小 二 乘 代 价 函 数 。L 1 惩罚 使 部 分 子 集 的 权重 为 零 表明 相应 的 特 
征 可 以 被 安 全 地 忽略 。 


在 第 5.6.1 节 ， 我 们 看 到 许多 正则 化 策略 可 以 被 解释 为 MAP 贝 叶 斯 推 师 ， 
特别 是 L“ 正则 化 相当 于 权重 是 ane DU ET. XFL + IE 
WJ, HFEA R RHE N 


A) (Ww Ww 时 = — ER Va w; [sa 过 MAP 贝 叶 斯 推 


断 最 大 化 的 对 数 先 验 项 是 等 价 的 Qy CR” 并 且 权 重 先 验 是 各 向 
同性 的 拉 普 拉 斯 分 布 ( 式 (3.26) ) ) : 


1 
log p(w = Ms log Laplace(w,; 0, z) = —& |w ||; + nloga -— nlog2 (7.24) 


因为 是 关于 w 最 大 化 进行 和 学习， 我 们 可 以 忽略 loga-log 2 项 ， 因 为 它们 
与 w 无 天 。 


7.2 SENNA RAN AE i 
考虑 经 过 参数 范 数 正 则 化 的 代价 函数 : 


J(0; X, y) = J(@; X, y) + aM(@) (7.25) 


回顾 第 4.4 节 ， DW ee ta 
数 ， 即 在 原始 目标 函数 上 琴 加 一 系列 惩 井 项 。 每 个 惩 避 是 一 个 极 称 

为 Karush-Kuhn-Tucker (Karush-Kuhn- Tucker) 来 子 的 系数 以 及 一 个 
表示 约束 是 含 满足 的 函数 之 间 的 乘积 。 如 采 想 约束 2(9) 小 于 茶 个 单数 
k, RITE EN X Lagrange rK žr 


rO a; X,y) = J(@; X,y) + a(M(@) —k) (7.26) 
这 个 约束 问题 的 解 由 下 式 给 出 
0 = arg min max L(0.,a) (7.27) 
0 a,a20 


如 第 4.4 节 中 摘 述 的 ， m 上 问题， 我 们 需要 对 6 和 a 都 做 出 调整 。 
第 4.5 节 给 出 了 一 个 融 L“ 约束 的 线性 回归 实例 。 还 有 许多 不 同 的 优化 方 
有 此 可 能 会 使 用 梯度 下 降 而 其 他 可 能 会 使 用 梯度 为 0 的 解析 解 ， 但 
在 所 有 过 程 中 a 在 Q( 0 )>k 时 必须 增加 ， 在 &(0 6 ) 二 k 时 必须 减 小 。 所 有 
正 值 的 a 都 鼓励 Q( 0 ) 收 缩 。 最 优 值 a ”也 将 鼓励 Q( 9 ) 收 缩 ， 但 不 会 强 到 
使 得 Q( 0 ) 小 于 k。 


为 了 洞察 约束 的 影响 ， 我 们 可 以 固定 gx” ， 把 这 个 问题 看 成 只 跟 9 AR 


的 函数 : 


0 = argmin L(0,a*) = argmin J(0; X, y) + a*ž9(0) (7.28) 
0 0 


这 和 最 小 化 J 的 正则 化 训练 问题 是 完全 一 样 的 。 因 此 ， 我 们 可 以 把 参数 
范 数 惩 神 看 作对 权 香 强加 的 约束 。 如 果 Q 是 L“ UR, ALA HEE KAY 
束 在 一 个 L“ 球 中 。 如 果 Q 是 L' ER, AKAM EE RA RTE SL t fi 
数 限 制 的 区 域 中 。 通 常 我 们 不 知道 权重 肥 减 系数 a ”约束 的 区 域 大 小 ， 
因为 a 的 值 不 直接 告诉 我 们 k 的 值 。 原 则 上 我 们 可 以 解 得 k， 但 k 和 a 之 
则 的 关系 取决 于 J 的 形式 。 昌 然 我 们 不 知 志 约束 区 域 的 确切 大 小 ， 但 可 
以 通过 增加 或 者 减 小 aq 来 大 致 扩大 或 收缩 约束 区 域 。 较 六 的 gx， 将 得 到 一 
个 较 小 的 约束 区 域 。 较 小 的 a， 将 得 到 一 个 较 大 的 约束 区 域 。 


有 时 候 ， 我 们 希望 使 用 显 陈 的 限制 ， 而 不 是 惩 大 。 如 第 4.4 节 所 述 ， 我 
们 可 以 修改 下 降 算 法 《〈 如 随机 梯度 下 降 算 法 ) ， 使 其 多 计算 J0 ) 的 下 降 
步 ， 然 后 将 8 投影 到 满足 2( 0 ) 过 k 的 最 近 点 。 如 采 我 们 知 站 什么 样 的 K 
是 合适 的 ， 而 不 想 伦 时 间 寻 找 对 应 于 此 k 处 的 a 值 ， 这 会 非常 有 用 。 


万 一 个 使 用 显 却 约束 和 重 投影 而 不 是 使 用 惩 避 踢 加 约束 的 原因 是 ， 惩 避 
可 能 会 叶 致 目标 孙 数 非 凸 而 使 算法 陷入 局 部 极 小 (对 应 于 小 的 8 ) 。 当 
训练 神经 网 络 时 ， 这 通常 表现 为 训练 市 有 几 个 “死亡 单元 ”的 神经 网 络 。 
这 些 单元 不 会 对 网 络 学 到 的 函数 有 太 大 影响 ， 因 为 进入 或 离开 它们 的 权 
重 者 非常 小 。 当 使 用 权重 函数 的 惩 芭 训练 时 ， 即 使 可 以 通过 增加 权重 以 
显 兰 减少 J]， 这 些 配 置 也 可 能 是 局 部 最 优 鸭 。 因 为 重 投影 实现 的 显 陈 约 
束 不 或 励 权重 接近 原点 ， 所 以 在 这 些 情况 下 效 来 更 好 。 通 过 重 投 影 实 现 
的 显 却 约束 只 在 权重 变 大 并 试图 离开 限制 区 域 时 产生 作用 。 


最 后 ， 因 为 重 投 影 的 显 式 约束 还 对 优化 过 程 增 加 了 一 定 的 稳定 性 ， 所 以 
这 是 另 一 个 好 处 。 当 使 用 较 高 的 学 习 率 时 ， 很 可 能 进入 正 反 馈 ， 即 大 的 
权重 诱导 大 梯度 ， 然 后 使 得 权重 获得 较 大 更 新 。 如 果 这 些 更 新 持续 增加 
权重 的 大 小 ， 6 就 会 迅速 增 大 ， 直 到 离 原 点 很 远 而 发 生 浇 出 。 重 投影 的 
显 式 约束 可 以 防止 这 种 反馈 环 引 起 权重 无 限制 地 持续 增加 。Hinton et al. 
(2012c) 建议 结合 使 用 约束 和 高 学 习 速 鞭 ， 这 样 能 更 快 地 探索 参数 衬 
闭 ， 并 保持 一 定 的 稳定 性 。 


Hinton et al. (2012c) 尤其 推荐 由 Srebro and Shraibman (2005) 引入 的 
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阵 的 Frobenius 范 数 。 分 别 限制 每 一 列 的 范 数 可 以 防止 某 一 隐 茂 单元 有 非 
第 大 的 权重 。 如 果 我 们 将 此 约束 转换 成 Lagrange 孙 数 中 的 一 个 惩 鹿 ， 这 
将 与 L“ 权重 衰减 类 似 但 每 个 隐藏 单元 的 权重 都 有 具有 单独 的 KKT 科 子 。 
每 个 KKT 乘 子 分 别 会 被 动态 更 新 ， 以 使 每 个 隐 关 单元 服从 约束 。 在 实践 
中 ， 列 范 数 的 限制 总 是 通过 重 投 影 的 显 式 约束 来 实现 。 


7.3 正则 化 和 多 约束 问题 


在 某 些 情况 下 ， 为 了 正确 定义 机 器 学 习 问题 ， 正 则 化 是 必要 的 。 机 器 学 
习 中 许多 线性 模型 ， 包 括 线性 回归 和 PCA， 都 依赖 于 对 乍 阵 允 T Y R 
WM RY Ty 是 奇异 的 ， 这 些 方法 就 会 失效 。 当 数据 生成 分 布 在 一 
些 方向 上 确实 没有 差异 时 ， 或 因为 例子 较 少 〔 即 相对 输入 特征 的 维 数 来 
说 ) 而 在 一 些 方向 上 没有 观察 到 方差 时 ， 这 个 矩 阵 就 是 奇异 的 。 在 这 种 
情况 下 ， 正 则 化 的 许多 形式 对 应 求 逆 玩 了 克 ww 了 。 这 个 正则 化 矩阵 
可 以 保证 是 可 逆 的 。 


相关 是 阵 可 地 时 ， 这 些 线性 问题 有 闭 却 解 。 没 有 闭 云 解 的 问题 也 可 能 是 
穴 定 的 。 一 个 例子 是 应 用 于 线性 可 分 问题 的 馆 辑 回归 。 如 宋 权 重 问 量 w 
能 够 实现 完 关 分 类 ， 那 么 2 w 也 会 以 更 珊 似 然 实 现 完 类 分 类 。 类 似 随机 
榜 度 下 降 的 适 代 优化 算法 将 持续 增加 w 的 大 小 ， 理 论 上 永远 不 会 停止 。 
在 实践 中 ， 数 值 实现 的 梯度 下 降 最 终 会 达到 导致 数值 洪 出 的 超大 权重 ， 
此 时 的 行为 将 取决 于 程序 员 如 何 处 理 这 些 不 是 真正 数字 的 值 。 

大 多 数 形式 的 正则 化 能 够 保证 应 用 于 欠 定 问题 的 达 代 方法 收 线 。 例 如 ， 
ee °° ， 权 重 爱 减 将 阻止 棉 度 下 降 继续 增 
中 权重 的 大 小 。 


使 用 正则 化 解决 灾 定 问题 的 力 法 不 局 限于 机 需 学 习 。 同 样 的 想法 在 几 个 
基本 线性 代数 问题 中 也 非常 有 用 。 


正如 我 们 在 第 2.9 节 看 到 的 ， 我 们 可 以 使 用 Moore-Penrose 求 解 玉 定 线性 
Ti FE o pE X thii ¥ Tt 的 一 个 定义 : 


Xt = lim(X X Jary ET (7.29) 


现在 我 们 可 以 将 式 〈7.29) Aves 7T AOA A Be SY Be ME TBA. HAK 
说 ， 当 正则 化 系数 趋向 0 时 ， 式 〈7.29) Æ (7.17) 的 极限 。 因 此 ， 我 
们 可 以 将 伪 刻 解释 为 使 用 正则 化 来 稳定 灾 定 问题 。 


7.4 ”数据 集 增 强 


让 机 融和 学习 模型 沁 化 得 更 好 的 最 好 办 法 是 使 用 更 多 的 数据 进行 训练 。 当 
然 ， 在 实践 中 ， 我 们 拥有 的 数据 量 是 很 有 限 的 。 解 决 这 个 问题 的 一 种 方 
法 是 创建 假 数 据 并 添加 到 训练 集中 。 对 于 一 些 机 器 学 习 任 务 ， 创 建新 的 
假 效 气相 当 简 单 。 


对 分 类 来 说 这 种 方法 是 最 简单 的 。 分 类 右 需 要 一 个 复 林 的 噩 维 输 入 XxX ， 
并 用 单个 类 列 标 识 y 概 括 x 。 这 意味 看 分 类 面临 的 一 个 主要 任务 是 要 对 
各 种 各 样 的 变换 保持 不 变 。 我 们 可 以 轻易 通过 转换 训练 集中 的 x 来 生成 
MEI Cx, y) 对 。 


这 种 方法 对 于 其 他 许多 任务 来 说 并 不 那么 容易 。 例 如 ， 除 非 我 们 已 经 解 
关 了 密度 估计 问题 ， 人 否则 在 密度 估计 任务 中 生成 新 的 假 数 据 羡 很 困难 
的 。 


数据 集 增 强 对 一 个 具体 的 分 类 问题 来 说 是 特别 有 效 的 方法 : 对 象 识别 。 
图 像 是 高 维 的 并 包括 各 种 巨大 的 变化 因素 ， 其 中 有 许多 可 以 轻易 地 模 

拟 。 即 使 模型 已 使 用 卷 积 和 池 化 技术 (第 9 章 ) 对 部 分 平移 保持 不 变 ， 

沿 训 | 练 图 像 每 个 方 同 平移 几 个 像素 的 操作 通常 可 以 大 大 改善 泛 化。 许多 
其 他 操作 如 旋转 图 像 或 缩放 图 像 也 已 和 要 证 明 非 常 有 效 。 

我 们 必须 要 小 心 ， 不 能 使 用 会 改变 类 别 的 转换 。 人 例如， 光学 字符 识别 任 
务 需 要 认识 到 “b” 和 “d” 以 及 “6” 和 “9” 的 区 别 ， 所 以 对 这 些 任 务 来 说 ， 水 
平 翻 转 和 旋转 180° 并 不 是 合适 的 数据 集 增强 方式 。 


能 保持 我 们 希望 的 分 类 不 变 ， 但 不 容易 执行 的 转换 也 是 存在 的 。 例 如 ， 
平面 外 绕 轴 转动 难以 通过 简单 的 几何 运算 在 输入 像素 上 实现 。 


数据 集 增强 对 语音 识别 任务 也 和 是 有 效 的 〈Jaitly and Hinton, 2013) 。 


在 神经 网 络 的 输入 层 注 入 噪声 (Sietsma and Dow, 1991) 也 可 以 看 作 数 
据 增 强 的 一 种 方式 。 对 于 许多 分 类 甚至 一 些 回 归 任 务 而 言 ， 即 使 小 的 随 


机 噪声 被 加 到 输入， 任务 仍 应 该 是 能 够 被 解 诀 的。 然而， 神经 网 络 被 证 
明 对 噪声 不 是 非常 健壮 〈Tang and Eliasmith, 2010) 。 改 善 神经 网 络 健 
壮 性 的 方法 之 一 是 简单 地 将 随机 噪声 这 加 到 输入 绸 进行 训练 。 输 入 噪声 
注入 是 一 些 无 监督 学 习 算 法 的 一 部 分 ， 如 去 品目 编 但 右 (Vincent et al. 
，2008a) 。 问 隐藏 单元 施加 噪声 也 是 可 行 的 ， 这 可 以 被 看 作 在 多 个 抽 

象 层 上 进行 的 数据 集 增 强 。Poole et al. (2014) 最 近 表 明 ， 噪 声 的 幅度 
逢 细心 调整 后 ， 广 方法 是 非常 高 效 的 。 我 们 将 在 第 7.12 贡 介绍 一 个 强大 
的 正则 化 菏 略 Dropout， 访 束 略 可 以 看 作 退 过 与 噪声 相 末 构建 新 输 入 的 


在 比较 机 可 学 习 基 准 测 试 的 结果 时 ， 考 虑 其 采取 的 数据 集 增强 是 很 午 要 
的 。 通 第 情况 下 ， 人 工 设计 的 数据 集 增 强 方 条 可 以 大 大 减少 机 右 学 习 拉 
术 的 泛 化 误 蕾 。 将 一 个 机 如 学 习 算 法 的 性 能 与 为 一 个 进行 对 比 时 ， 对 照 
Shae DE. FELL BN La I AAA A La HJ BABIN, DWAR 
XAA SIS 188 H ESA TCE a ST RT Ro TERA TEVA A 
据 集 增强 时 表现 不 佳 ， 而 B 结 合 大 量 人 工 转 换 的 数据 后 表现 民 好 。 在 这 
样 的 情况 下 ， 很 可 能 是 合成 转化 引起 了 性 能 改进 ， 而 不 是 机 融和 学 习 算法 
B 比 算法 A 蝎 好 。 有 了 时候， 确定 实验 是 任 已 经 适当 控制 需要 主观 判断 。 

例如 ， 回 输入 注入 噪声 的 机 融和 学 习 算法 是 执行 数据 集 增 强 的 一 种 形 却 。 
通 单 ， 普 适 操作 《例如 ， 回 输入 还 加 高 斯 噪声 ) 极 认 为 是 机 闫 学 习 算法 
的 一 部 分 ， 而 特定 于 一 个 应 用 领域 (如 随机 地 裁 杭 图像) 的 操作 被 认为 
是 独立 的 预 处 理 步 又 。 


7.5 ”噪声 鲁 棒 性 


第 7.4 节 已 经 提出 将 噪声 作用 于 输入 ， 作 为 数据 集 增 强 策 略 。 对 于 某 些 
模型 而 言 ， 同 输入 腔 加 方 兰 极 小 的 噪声 等 价 于 对 权重 施加 范 数 惩 习 
(Bishop, 1995a, b) 。 在 一 般 情况 下 ， 注 入 噪声 远 比 丛 单 地 收 绾 参数 
强大 ， 特 别 是 噪声 被 添加 到 隐藏 单元 时 会 更 加 强大 。 癌 隐藏 单 元 添加 噪 
声 是 值得 单独 讨论 的 重要 话题 。 在 第 7.12 节 所 述 的 Dropout 算 法 是 这 种 做 
TAY EER RTT IF] 


另 一 种 正则 化 模型 的 噪声 使 用 方式 是 将 其 加 到 的 权重 。 这 项 技术 主要 用 
于 循环 神经 网 络 (Jim et al. , 1996: Graves, 2011) 。 这 可 以 被 解释 为 
天 于 权重 的 贝 叶 斯 推 上 逆 的 随机 实现 。 贝 叶 斯 学 习 过 程 将 权重 视 为 不 确定 
的 ， 并 且 可 以 通过 概率 分 布 表示 这 种 不 确定 性 。 同 权重 添加 噪声 是 反映 


这 种 不 确定 性 的 一 种 实用 的 随机 方法 。 


在 菏 些 假设 下 ， 施 加 于 权 午 的 噪声 可 以 被 解释 为 与 更 传统 的 正则 化 形式 
等 同 ， 鼓 励 要 学 习 的 函数 保持 稳定 。 我 们 研究 回归 的 情形 ， 也 就 是 训 经 
将 一 组 特征 x 映射 成 一 个 标量 的 函数 育 ( zz ) ， 并 使 用 最 小 二 乘 代价 函数 
衡量 模型 预测 值 Y( 2Z ) 与 真实 值 y 的 误差 : 

J = Epy) (0) 2 y) (7.30) 
训练 集 包含 m 对 标注 样 例 {(z2 0D yD)... (wl) yl), 
现在 我 们 假设 对 每 个 输入 表示 ， 网 络 权重 添加 随机 扰动 
Ew ~N(€:0, 71) 。 想象 我 们 有 一 个 标准 的 I 层 MLP。 我 们 将 扰动 
BULLI cy, (L) 。 尽 管 有 噪声 注入 ， 我 们 仍然 希望 减少 网 络 输出 误 
大 的 平方 。 因 此 目标 函数 变 为 : 


Jw = Epce,y,ew)|Gew(#) — y)7] (7.31) 
= Ente,y,en) Bet) — 2ubeg (2) + y" (7.32) 


对 于 小 的 n， 最 小 化 带 权重 噪声 (方差 为 了 〉 的 J 等 同 于 最 小 化 附加 正 
则 化 项 : pe || Vw (a) ||") 的 J。 这 种 形 却 的 正则 化 或 励 参数 进 
入 权重 小 扰动 对 输出 相对 影响 较 小 的 参数 空间 区 域 。 换 句 话 说 ， 它 推动 
模型 进入 对 权重 小 的 变化 相对 不 敏感 的 区 域 ， 找 到 的 点 不 只 是 极 小 点 ， 
还 是 由 平坦 区 域 所 包围 的 极 小 点 (Hochreiter and Schmidhuber, 
1995) 。 在 徐 化 的 线性 回归 中 《例如 ，V(Z ) = wixtb ), EW 
THE ANE» a) llel] ， 这 与 图 数 的 参数 无 关 ， 因此 不 会 对 ,J 关于 村 
型 参数 的 梯度 有 影 啊 。 


7.5.1 问 输 出 目标 注入 噪声 


大 多 数 数据 集 的 y 标 签 都 有 一 定 错误 。 错 误 的 y 不 利于 最 大 化 

log p(y | £) 。 避免 这 种 情况 的 一 种 方法 是 显 式 地 对 标签 上 的 噪声 
进行 建 模 。 例 如 ， 我 们 可 以 假设 ， 对 于 一 些小 常数 全 ， 训 练 集 标记 y 是 
正确 的 概率 是 ] — e (以 在 的 概率 ) 任何 其 他 可 能 的 标签 也 可 能 
是 正确 的 。 这 个 假设 很 容易 就 能 解析 地 与 代价 函数 结合 ， 而 不 用 显 式 地 





抽取 噪声 样本 。 例 如 ， 标 签 平滑 (label smoothing) 通过 把 确切 分 类 目 
标 从 0 和 1 替换 成 PH | — € ， 正 风化 具有 k 个 输 册 


Hsoftmax 函 数 的 模型 。 标 准 交 文 焕 损 失 可 以 用 在 这 些 非 确 切 目 标的 输 
出 上 。 使 用 softmax 隐 数 和 明确 目标 的 最 大 似 然 学 习 可 能 永远 不 会 收 合 
softmax 函 数 永 远 无 法 真正 预测 0 概 率 或 1 概 鞭 ， 因 此 它 会 继续 学 习 
越 来 越 大 的 权重 ， 使 预测 更 极 病 。 使 用 如 权重 衰减 等 其 他 正则 化 案 略 能 
够 防止 这 种 情况 。 标 签 平 滑 的 优势 是 能 够 防止 模型 退 求 确切 概率 而 不 影 
啊 模 型 学 习 正 确 分 类 。 这 种 案 略 目 20 世 纪 80 年 代 吏 已 经 被 使 用 ， 并 在 现 
代 神 经 网 络 继续 保持 显著 特色 (Szegedy etal., 2015) 。 
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在 半 监 督学 习 的 框架 下 ，PGO9 产 生 的 未 标记 样本 和 P(xy) 中 的 标记 样本 都 
用 于 估计 P(y | xB AR Ge x Tilly 2 


ETRE SON sR, AA RS Sa a Ee PN h = f(x). 
学习 表示 的 目的 是 使 相同 类 中 的 样本 有 闫 似 的 表示 。 无 监督 学 习 可 以 为 
如 何在 表示 空间 聚集 样本 提供 有 用 线索 。 在 输入 空间 案 密 聚集 的 样本 应 
该 税 映 射 到 类 似 的 表示 。 在 许多 情况 下 ， 刹 空间 上 的 线性 分 类 右 可 以 达 
Bl RUF KZ (Belkin and Niyogi, 2002; Chapelle et al. , 2003) 。 这 
种 方法 的 一 个 经 典 变 种 是 使 用 主 成 分 分 析 作 为 分 类 前 在 投影 后 的 数据 
上 分 类 ) 的 预 处 理 步 又 。 


我 们 可 以 构建 这 样 一 个 模型 ， 其 中 生成 模型 P(x) 或 P(x,y) 与 判别 模型 P(y 
| 区 共享 参数 ， 而 不 用 分 离 无 监督 和 监督 部 分 。 我 们 权衡 监督 模型 准则 
-log P(y | x) 和 无 监督 或 生成 模型 准则 (如 -log P(x) 或 -log P(x,y)) 。 生 
成 模型 准则 表达 了 对 监督 学 习 问 题解 的 特殊 形式 的 先 验 知识 (Lasserre 

et ql. ，2006) ， 即 P(x) 的 结构 通过 某 种 共 诗 参数 的 方式 连接 到 P(y | x). 

退 过 控制 在 轧 准则 中 的 生成 准则 ， 我 们 可 以 获得 比 纯 生 成 或 纯 判 别 训 练 
准则 更 好 的 权衡 (Lasserre et al. , 2006; Larochelle and Bengio, 

2008a) 。 








Salakhutdinov and Hinton (2008) 摘 述 了 一 种 学 习 回 归 核 机 老 中 核 困 数 
的 方法 ， 其 中 建 模 P(x) 时 使 用 的 未 标记 样本 大 大 提 珊 了 P(y | xR. 


更 多 半 监 督学 习 的 信息 ， 请 参阅 Chapelle et al. (2006) 。 


7.7 多 任务 学 习 


多 任务 学 习 (Caruana, 1993) 是 通过 合并 几 个 任务 中 的 样 例 〈 可 以 视 
为 对 参数 施加 的 软 约 束 ) 来 提高 泛 化 的 一 种 方式 。 正 如 人 额外 的 训练 样本 
能 够 将 模型 参数 推 回 具有 更 好 沁 化 能 力 的 值 一 样 ， 当 模型 的 一 部 分 修 多 
个 额外 的 任务 共享 时 ， 这 部 分 将 被 约束 为 恨 好 的 值 〈 如 果 共 享 合理 ) ， 
通 钊 会 市 来 更 好 的 汉化 能 


图 7.2 展 示 了 多 任务 学 习 中 非常 普 吉 的 一 种 形式 ， 其 中 不 同 的 监督 任务 
(给 定 x 预 测 y 包 ) 共享 相同 的 输入 x 以 及 一 些 中间 层 表示 h share) ， 能 
学 习 共 同 的 因 系 闻 。 访 模型 通常 可 以 分 为 两 类 相关 的 参数 : 


(1) 有 具体 任务 的 参数 〈 只 能 从 各 目 任 务 的 样本 中 实现 展 好 的 泛 化 ) ， 
如 图 7.2 中 的 上 层 。 


(2) 所 有 任务 共 圣 的 通用 参数 (从 所 有 任务 的 沪 集 数据 中 获 益 )， 如 
图 7.2 中 的 下 层 。 





hlshared ) 








图 7.2 多 任务 学 习 在 深度 学 习 框架 中 可 以 以 多 种 方式 进行 ， 该 图 说 明了 任务 共享 相同 输入 但 涉 
及 不 同 目标 随机 变量 的 常见 情况 。 深 度 网 络 的 较 低层 〈 无 论 是 监督 前 馈 的 ， 还 是 包括 向 下 箭头 
HERA TAREAS, HESS HSM h O an 进入 和 发 出 上 
权重 ) 可 以 在 共享 表示 h Shared) 之 上 学 习 。 这 里 的 基本 假设 是 存在 解释 输入 x 变 化 的 共同 因 
素 池 ， 而 每 个 任务 与 这 些 因素 的 子 集 相 关联 。 在 该 示例 中 ， 人 额外 假设 顶层 隐藏 单元 h (DD 和 hh 
专用 于 每 个 任务 (分 别 预测 y (DD) 和 y (2) )， 而 一 些 中 间 层 表示 h Shared) 在 所 有 任务 之 间 ]} 
享 。 在 无 监督 学 习 情 况 下 ， 一 些 顶 层 因素 不 与 输出 任务 ( h SD) 的 任意 一 个 关联 是 有 意义 
的 ;这 些 因 素 可 以 解释 一 些 输入 变化 但 与 预测 y (内 或 y( 不 相关 
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任务 模式 增加 的 比例 ) ， 并 能 改善 汉化 和 汉化 误 关 的 范围 (Baxter, 
1995) 。 当 然 ， 仅 当 不 同 的 任务 之 间 存 在 某 些 统 计 关 系 的 假设 是 合理 
(意味 着 茶 些 参数 能 通过 不 同 任务 共 享 ) 时 才 会 发 生 这 种 情况 。 


从 深度 学 习 的 观点 看 ， 底 层 的 先 验 知识 如 下 : 能 解释 数据 变化 〈 在 与 之 
相关 联 的 不 同 任务 中 观察 到 ) 的 因素 中 ， 某 些 因素 是 跨 两 个 或 更 多 任务 
共享 的 。 

7.8 ”提前 终止 

当 训练 有 足够 的 表示 能 力 甚至 会 过 拟 合 的 大 模型 时 ， 我 们 经 常 观察 到 ， 


训练 误 达 会 随 看 时 间 的 推移 逐渐 降低 但 验证 集 的 误 天 会 再 钦 上 升 。 图 
7.3 是 这 些 现象 的 一 个 例子 ， 这 种 现象 几乎 一 定 会 出 现 。 


0.20 
0.15 


0.10 


损失 ( 负 对 数 似 然 ) 





0 50 100 150 200 250 
时 间 ( 轮 数 ) 


图 7.3 ”学 习 曲 线 显 示人 负 对 数 似 然 损 失 如 何 随时 间 变 化 (表示 为 忆 历数 据 集 的 训练 达 人 代数， 或 轮 
数 Cepochs) ) 。 在 这 个 例子 中 ， 我 们 在 MNIST 上 训练 了 一 个 maxout 网 络 。 我 们 可 以 观察 到 训 
练 目标 随时 间 持 续 减 小 ， 但 验证 集 上 的 平均 损失 最 终 会 再 次 增加 ， 形 成 不 对 称 的 U 形 曲线 


这 意味 看 我 们 只 要 返回 使 验证 集 误 开 最 低 的 参数 设置 ， 束 可 以 获得 验证 
集 误 莽 更 低 的 模型 《并 且 因 此 有 和 希望 获得 更 好 的 测试 误 和 过) 。 在 每 次 验 
证 集 误 壮 有 所 改善 后 ， 我 们 存 人 备 模型 参数 的 副本 。 当 训练 算法 终止 时 ， 
我 们 返回 这 些 参数 而 不 是 最 新 的 参数 。 当 验证 集 上 的 误 天 在 事先 指定 的 
循环 识 数 内 没有 进一步 改善 时 ， 算 法 束 会 终止 。 此 过 程 在 算法 7.1 中 有 
更 正式 的 说 明 。 


这 种 策略 被 称 为 提前 终止 (early stopping，〉。 这 可 能 是 深度 学 习 中 最 常 





用 的 正则 化 形式 。 它 的 流行 主要 是 因为 有 效 性 和 人 简单 性 。 


我 们 可 以 认为 提前 终止 是 非常 高 效 的 超 参 数 选择 算法 。 按 照 这 种 观点 ， 
训练 步 数 仅 是 男 一 个 超 参 数 。 我 们 从 图 7.3 可 以 看 到 ， 这 个 超 参 数 在 验 

证 集 上 具有 U 型 性 能 曲线 。 很 多 控制 模型 容量 的 超 参 数 在 验证 集 上 都 是 
这 样 的 U 型 性 能 曲线 ， 如 图 5.3 所 示 。 在 提前 终止 的 情况 下 ， 我 们 通过 控 
制 拟 合 训练 集 的 步 数 来 控制 模型 的 有 效 容量 。 大 多 数 超 参 数 的 选择 必须 
使 用 高 代价 的 猜测 和 检查 过 程 ， 我 们 需要 在 训练 开始 时 猜测 一 个 超 参 

数 ， 然 后 运行 几 个 步骤 检查 它 的 训练 效果 。 “训练 时 间 ” 是 唯一 只 要 跑 一 
次 训练 就 能 尝试 很 多 值 的 超 参 数 。 通 过 提前 终止 自动 选择 超 参 数 的 唯一 
显著 的 代价 是 训练 期 间 要 定期 评估 验证 集 。 在 理想 情况 下 ， 这 可 以 并 行 
在 与 主 训练 过 程 分 离 的 机 器 上 ， 或 独立 的 CPU， 或 独立 的 GPU 上 完成 。 
如 果 没 有 这 些 额 外 的 资源 ， 可 以 使 用 比 训练 集 小 的 验证 集 或 较 不 频繁 地 
评估 验证 集 来 减 小 评估 代价 ， 较 粗略 地 估算 取得 最 佳 的 训练 时 间 。 


为 一 个 提前 终止 的 额外 代价 是 需要 你 持 最 佳 的 参数 副本 。 这 种 代价 一 般 
是 可 急 略 的 ， 因 为 可 以 将 它 储存 在 较 慢 较 大 的 存储 带 上 例如 ， 在 GPU 
内 存 中 训练 ， 但 将 最 佳 参数 存储 在 主 和 存储 右 或 磁盘 驱动 副 上 ) 。 由 于 最 
佳 参数 的 写 入 很 少 发 生 而 且 从 不 在 训练 过 程 中 读 取 ， 这 些 偶发 的 慢 写 入 
对 忌 训练 时 间 的 影响 不 大 。 


提 击 终止 是 一 种 非 第 不 显眼 的 正则 化 形式 ， 它 几乎 不 需要 改变 基本 训练 
过 程 、 目 标 函 数 或 一 组 允许 的 参数 值 。 这 意味 看 ， 无 须 破坏 学 习 动 态 就 
能 很 容 多 地 使 用 提前 终止 。 相 对 于 权重 桶 减 ， 必 须 小 心 不 能 便 用 太 多 的 
权重 要 减 ， 以 防 网 络 陷入 不 民 局 部 极 小 点 〈 对 应 于 病态 的 小 权重 ) 。 


所 前 终止 可 单独 使 用 或 与 其 他 的 正则 化 委 略 结合 使 用 。 即 使 为 或 励 更 好 
沁 化 ， 使 用 正则 化 集 略 改进 目标 函数 ， 在 训练 目标 的 局 部 极 小 点 达到 最 
EZ Ht EE FLY 


提前 终止 需要 验证 集 ， 这 意味 痢 东 些 训 练 数 据 不 能 被 饥 送 到 模型 。 为 了 
更 好 地 利用 这 一 额外 的 数据 ， 我 们 可 以 在 完成 扣 前 终止 鸭 首 次 训练 之 
后 ， 进 行 额 外 的 训练 。 在 第 二 轮 ， 即 额外 的 训练 步骤 中 ， 所 有 的 训练 数 
扼 都 被 包括 在 内 。 有 两 个 基本 的 人 略 都 可 以 用 于 第 二 轮训 练 过 程 。 


算法 7.1 ”用 于 确定 最 佳 训 练 时 间 量 的 提前 终止 元 算法 。 这 种 元 算法 十 


一 种 通用 策略 ， 可 以 很 好 地 在 各 种 训练 算法 和 各 种 量化 验证 集 误 差 的 方 
am wedge 





令 D 为 评估 间隔 的 步 数 。 
令 p 为 “耐心 Cpatience) ”， 即 观察 到 较 坏 的 验证 集 表 现 p 次 后 终止 。 


令 6。 为 急 始 参数 。 


while j<p do 
运行 训练 算法 n 步 ， 更 新 0 。 
i- itn 
v e ValidationSetError( 0 ) 


ifv’ <v then 


vev’ 


else 
j-j+1 
end if 
end while 


最 佳 参数 为 6 ， 最 佳 训练 步 数 为 i 





一 个 策略 (算法 7.2 ) 是 再 次 初始 化 异型 ， 然 后 使 用 毛 有 数据 再 次 训 
练 。 在 这 个 第 二 轮训 练 过 程 中 ， 我 们 使 用 第 一 轮 提前 终止 训练 确定 的 最 
佳 步 数 。 此 过 程 有 一 些 细微 之 处 。 例 如 ， 我 们 没有 办 法 知道 重新 训 练 
时 ， 对 参数 进行 相同 次 数 的 更 新 和 对 数据 集 进 行 相同 次 数 的 明 历 哪 一 个 
更 好 。 由 于 训练 集 变 大 了 ， 在 第 二 轮训 练 时 ， 每 一 次 遇 历 数据 集 将 会 更 
多 次 地 更 新 参数 。 


为 一 个 策略 是 你 持 从 第 一 轮训 练 获得 的 参数 ， 然 后 使 用 全 部 的 数据 继续 
训练 。 在 这 个 阶段 ， 已 经 没有 验证 集 指导 我 们 需要 在 训练 多 少 步 后 终 
止 。 取 而 代 之 ， 我 们 可 以 监控 验证 集 的 平均 损失 函数 ， 并 继续 训练 ， 和 下 
到 它 低 于 提前 终止 过 程 终 止 时 的 目标 值 。 此 全 上 略 避 人 钩 了 曹 新 训练 模型 的 
高 成 本 ， 但 表现 并 没有 那么 好 。 例 如 ， 验 证 集 的 目标 不 一 定 能 达到 之 前 
的 目标 值 ， 所 以 这 种 全 上 略 甚至 不 能 你 证 终止 。 我 们 会 在 算法 7.3 中 更 正 


式 地 介绍 这 个 过 程 。 


所 前 终止 对 减少 训练 过 程 的 计算 成 本 也 是 有 用 的 。 除 了 由 于 限制 训练 的 
迭 代 次 数 而 明 最 减少 的 计算 成 本 ， 还 市 来 了 正则 化 的 益处 《不 需要 诬 加 
惩 避 项 的 代价 函数 或 计算 这 种 附加 项 的 柳 度 ) 。 





算法 7.2 ”使 用 提前 终止 确定 训练 步 数 ， 然 后 在 所 有 数据 上 训练 的 元 算 
ie 


A y (train) 和 y train) 为 训练 集 。 


‘, 


x (train) 和 gp STL) 分 别 分 割 | 为 yo eh 和 全 gle), 


从 随机 0 开始 ， Hy (subtrain) 和 ta 作为 训练 集 ， 
y (valid) 和 y valid) 作为 验证 集 ， 


运行 (算法 7.1 ) 。 这 将 返回 最 佳 训练 步 数 i 。 
将 9 FUR BCA BENE o 
x (train) 和 y(train) 上 训练 i 步 。 








算法 7.3 ”使 用 所 前 终止 确定 将 会 过 拟 合 的 目标 值 ， 然 后 在 所 有 数据 上 
训练 直到 再次 达到 该 值 的 元 算法 。 


Ay xX (train) 和 y (train) 为 训练 集 。 
将 X (train) 和 y (train) 分 别 分 害 为 dm x (valid) ) 和 (WCGsubtrain)， y(valid) ), 
从 随机 9 开始 ， 使 用 X (subtrain) 和 gy pulstmainy 作为 训练 集 ， X (valid) 和 aa 作为 验证 集 ， 
运行 (算法 7.1)。 这 会 更 新 9。 
E g J(0. xX (subtrain) ” ene | 
while .7(0. y (valid) y (valid) ) > edo 

在 xX (train) 和 y (train) EWE m "3 


end while 


提前 终止 为 何 上 共有 正则 化 效果 : 目前 为 止 ， 我 们 已 经 声明 提前 终止 是 
一 种 正则 化 策略 ， 但 只 通过 展示 验证 集 误差 的 学 习 曲 线 是 一 个 U 型 曲线 
来 文 持 这 种 说 法 。 提 前 终止 正则 化 模型 的 真正 机 制 是 什么 呢 ? 

Bishop (1995a) 和 Sjoberg and Ljung (1995) 认为 提前 终止 可 以 将 优化 
过 程 的 参数 空间 限制 在 初始 参数 值 0 o 的 小 邻 域内 。 更 具体 地 ， 想 象 用 
学 习 率 万 进行 t 个 优化 步 又 (对 应 于 t 个 训练 迭代 ) 。 我 们 可 以 将 
ET 作为 有 效 容量 的 度量 。 假 设 梯度 有 界 ， 限 制 迭 代 的 次 数 和 学 习 束 
率 能 够 限制 从 8 到 达 的 参数 空间 的 大 小 ， 如 图 7.4 所 示 。 在 这 个 意义 
E, ET 的 效果 就 好 像 是 权重 衰减 系数 的 倒数 。 


Wo 





图 7.4 ”提前 终止 效 霖 的 示意 图 。 左 ) 实 线 轮 廊 线 表示 负 对 数 似 然 的 轮廓。 虚线 表示 从 原点 开 
始 的 SGD 所 经 过 的 轨迹 。 提 前 终止 的 轨迹 在 较 早 的 反 人 4 处 停止 ， 而 不 是 集 止 在 最 小 化 代价 的 ; 


w ibe CE) 为 了 对 比 ， 使 用 L < 正则 化 效果 的 示意 图 。 虚 线 圆圈 表示 L “< WEER, LE 
罚 使 得 总 代价 的 最 小 值 比 非 正 则 化 代价 的 最 小 值 更 靠近 原点 
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以 展示 提前 终止 相当 于 “正则 化 。 


为 了 与 经 典 L ? ”正则 化 比较 ， 我 们 只 考察 唯一 的 参数 是 线性 权重 
(6 = w) 的 简单 情形 。 我 们 在 权重 w 的 经 验 最 佳 值 w* 附近 以 二 次 近 
似 建 模 代价 函数 J: 


J(0) = J(w*) + 5 (w — w*)' H(w — w“) (7.33) 


EA H 是 J 关 于 w 在 w 点 的 Hessian。 鉴 于 假设 w 是 J(w) 的 最 小 点 ， 
我 们 知道 E H 为 半 正 定 。 在 局 部 胡 勒 级 数 再 近 下 ， 棉 度 由 下 式 给 出 : 


Vw (w) = H(w — w*) (7.34) 


Be BORAT FU BRAY ZB a] UIE ATA Ce IL, RATHS E 
初始 化 为 原点 号， 也 就 是 w 人 @ 二 0。 我 们 通过 分 析 上 的 梯度 下 降 来 研 
完 J 上 近似 的 梯度 下 降 的 效 来 : 


Vwd(w) = H(w — w*) (7.34) 


现在 让 我 们 在 HH 特征 同 量 的 空间 中 改写 表达 式 ， 利 用 H 的 特征 分 解 : 


H = QAQ'! » HA 是 对 角 矩 阵 ， Q 是 特征 向 量 的 一 组 标准 正 交 
FE 


wI — w" =(I—eQAQ' jw I — w") (7.38) 
Q (w — w*) = (I — A) Q' (wd)— w*) (7.39) 


假定 w 包 =0 并 且 选择 得 足够 小 以 保证 1 一 eAi| < 1> Atk 
参数 喝 新 后 轨迹 如 下 ; 


Q' w = [I -(I-«A)]Q' w* (7.40) 
现在 ， 式 (7.13) HQ! w 的 表达 陈 能 航 重 写 为 

Q'w=(A+al)'AQ'w* (7.41) 

Q'w =[I—-(A+alI)“'a]Q' w* (7.42) 
比较 式 〈7.40) 和 式 (7.42) ， 我 们 能 够 友 现 ， 如 果 超 参数 E 、 CY 和 Tt 
Yi XE 

(I -tA —(A-+al) +o (7.43) 


那么 L 2 正则 化 和 提前 终止 可 以 看 作 等 价 的 《至 少 在 目标 函数 的 二 次 近 
似 下 ) 。 进 一 步 取 对 数 ， 使 用 log(1 十 x) 的 级 数 展 开 ， 我 们 可 以 得 出 结 
Ve: 如 果 所 有 和 Xi 是 小 的 〈 即 EAi K 1 且 A 和 i;/aQa <1). WA 


i 
ry (7.44) 
ECY 
1 
a € 


ize, FERRER, VISE Kaa SL “ 参数 成 反比 的 作 
FA, TE 的 倒数 与 权重 桶 减 系数 的 作用 关羽 。 


在 大 曲率 (目标 函数 ) 方 同 上 的 参数 值 受 正则 化 影响 小 于 小 曲率 方 同 。 
当然 ， 在 所 前 终止 的 情况 下 ， 这 实际 上 意味 看 在 大 曲 束 方 同 的 参数 比较 
小 曲率 方 同 的 参数 更 早 地 和 学习 到 。 


本 节 中 的 推导 表明 ， 长 度 为 r 的 轨迹 结束 于 L“ 正则 化 目标 的 极 小 点 。 当 
然 ， 据 前 终止 比 窗 单 的 轨迹 长 度 限 制 更 丰富， 取而代之 ， 提 前 终止 通 种 
涉及 监控 验证 集 误 莽 ， 以 便 在 空间 特别 好 的 点 处 终止 轨迹 。 因 此 提前 终 
止 比 权重 袁 减 更 具有 优势 ， 提 前 终止 能 目 动 确定 正则 化 的 正确 量 ， 而 权 
重 豪 减 需要 进行 多 个 不 同 超 参 数值 的 训练 实验 。 
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目前 为 止 ， 本 章 讨论 对 参数 添加 约束 或 惩 避 时 ， 一 直 是 相对 于 固定 的 区 
成 或 点 。 例 如 ，L 2 正则 化 《或 权重 衰减 》 对 参数 偏离 零 的 固定 值 进行 
惩 训 。 然 而 ， 有 时 我 们 可 能 需要 其 他 的 方式 来 表达 我 们 对 模型 参数 适当 
值 的 先 验 知 识 。 有 了 时候， 我 们 可 能 无 法 准确 地 知道 应 该 使 用 什么 样 的 参 
数 ， 但 根据 相关 领域 和 模型 结构 方面 的 知识 得 知 模型 参数 之 则 应 该 存在 
一 些 相关 性 。 
我 们 经 党 想 要 表达 的 一 种 单 见 依赖 是 菜 些 参数 应 当 役 此 接近 。 考 虑 以 下 
HE: 有 两 个 模型 执行 相同 的 分 类 任务 (上 其 有 相同 类 别 ) ， 但 输入 分 布 
稍 有 不 同 。 形 式 地 ， 我 们 有 参数 为 w Y 的 模型 A 和 参数 为 w O) 的 模型 
B。 这 两 种 模 琢 将 输入 映射 到 两 个 不 同 但 相关 的 输出 : 
和 
我 们 可 以 想象 ， 这 些 任 务 会 足够 相似 (或 许 共 有 相似 的 输入 和 输出 分 
布 》， 因 此 我 们 认为 模型 参数 应 徙 此 千 近 ，\Jj ql) mas 
+ i 


apy P) 接近 。 我 们 可 以 通过 正则 化 和 用 此 信息 。 具 体 来 说 ， 可 以 使 
); 

HA BIB BOE AE TH : i 

QU w®, wB) = |w — w|} wee 
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这 种 方法 由 Lasserre et al. (2006) 提出 ， 正 则 化 一 个 模型 (监督 模式 下 
训练 的 分 类 故 〉 有 的 参数 ， 使 其 接近 为 一 个 无 监督 模式 下 训练 的 模型 ( 捕 
担 观 察 到 的 输入 数据 的 分 布 〉 的 参数 。 构 造 的 这 种 染 构 使 得 分 类 柑 型 中 


的 许多 参数 能 与 无 监督 模型 中 对 应 的 的 参数 匹配 。 


参数 范 数 惩 避 是 正则 化 参数 使 其 役 此 接近 的 一 种 方式 ， 而 更 流行 的 方法 
是 使 用 约束 : 强迫 茶 些 参数 相等 。 由 于 我 们 将 各 种 模型 或 模型 组 件 解 释 
为 共 至 唯一 的 一 组 参数 ， 这 种 正则 化 方法 通 遇 被 称 为 参数 共 持 
(parameter sharing〉。 和 和 正则 化 参数 使 其 接近 (通过 汇 数 惩 鹿 ) 相 比 ， 
参数 共 孚 的 一 个 显著 优点 是 ， 只 有 参数 〈 唯 一 一 个 集合 ) WF EW 
存储 在 内 存 中 。 对 于 茶 些 特定 模型 ， 如 卷 积 神经 网 络 ， 这 可 能 可 以 显 苦 
减少 模型 所 占用 的 内 存 。 
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目前 为 止 ， 最 流行 和 广泛 使 用 的 参数 共享 出 现在 应 用 于 计算 机 视觉 的 着 
只 神经 网 络 (CNN) 中 。 


目 然 图 像 有 许多 统计 属性 是 对 转换 不 变 有 的 。 例 如 ， 狂 的 照片 即使 回 右 边 
移 了 一 个 像素 ， 仍 保持 猫 的 上 照片。CNN 通 过 在 图 像 多 个 位 置 共享 参数 来 
竹 夺 这 个 特性 。 相 同 的 特征 《共有 相同 权重 的 隐 城 单元 ) 在 输入 的 不 同 
位 置 上 计算 获得 。 这 意味 看 无 论 猫 出 现在 图 像 中 的 此 i 列 或 i 十 1 列 ， 我 们 
邵 可 以 使 用 相同 的 独 探 测 帮 找到 狮 。 
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我 们 将 会 在 第 9 章 中 更 详细 地 讨论 卷 积 神经 网 络 。 
7.10 KZK 

前 文 所 述 的 权重 衰减 直接 惩罚 模型 参数 。 另 一 种 策略 是 惩罚 神经 网 络 中 
的 激活 单元 ， 稀 疏 化 激活 单元 。 这 种 策略 间接 地 对 模型 参数 施加 了 复杂 


惩罚 。 
我 们 已 经 讨论 过 在 第 7.1.2 节 中 ) L 1 惩罚 如 何 诱导 稀 琉 的 参数 ， 即 许 


多 参数 为 零 (或 接近 于 零 ) 。 另 一 方面 ， 表 示 的 稀疏 描述 了 许多 元 素 是 
零 (或 接近 零 的 表示 。 我 们 可 以 线性 回归 的 情况 简单 说 明 这 种 区 别 ; 
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第 一 个 表达 式 是 参数 稀 琉 的 线性 回归 模型 的 例子 。 FP RIA Te BU 
RAAR h ZR PEI. that, hh xe x 的 二 个 函数 在 未 种 
意义 上 表示 存在 于 x 中 的 信息 ， 但 只 是 用 一 个 黎 芷 癌 量 表示 。 


表示 的 正则 化 可 以 使 用 参数 正则 化 中 同 种 类 型 的 机 制 实现 。 


表示 的 范 数 惩罚 正则 化 是 通过 向 损失 函数 J 添 加 对 表示 的 范 数 惩罚 来 实 
现 的 。 我 们 将 这 个 惩罚 记 作 Q( h )。 和 以 前 一 样 ， 我 们 将 正则 化 后 的 损 
失 函 数 记 作 了: 


J(0; X,y) = 70: X,y) + adN(h) (7.48) 
其 中 aE[0,w%w] 权 衡 范 数 惩 罚 项 的 相对 页 献 ， 越 大 的 a 对 应 越 多 的 正则 化 。 


正如 对 参数 的 L 惩 可 诱导 参数 稀疏 性 ， 对 表示 元 素 的 站 RET Sat 
的 表示 : om)=|| 户 | = >; [hi] 当然 L : 惩罚 是 使 表示 稀 琉 的 方法 之 
其 他 方法 还 包括 从 表示 下 的 Student- t 先 验 寻 出 的 答 避 《〈Olshausen 
and Field, 1996; Bergstra, 2011) AIKLAUE <i} CLarochelle and 
Bengio, 2008b) ， 这 些 方法 对 于 将 表示 中 的 元 素 约 束 于 单位 区 间 上 特 
列 有 用 。Lee et al. (2008) 和 Goodfellow et al. (i). 者 提供 了 正则 


化 几 个 样本 平均 激活 的 例子 ， set DD 万 《2 ) 接近 某 些 目标 值 


(如 每 项 都 是 .01 的 同 量 〉。 


还 有 一 些 其 他 方法 通过 激活 值 的 便 性 约束 来 获得 表示 稀 焉 。 gee EX 
匹配 退 踪 (orthogonal matching pursuit) (Pati etal. , 1993) 通过 解决 
以 下 约束 优化 问题 将 输入 值 x 编码 成 表示 h 


arginin lz — WAl|- (7.49) 

h,||h|| ,><k 
其 中 | 及 |。 是 h 中 非 零 项 的 个 数 。 当 W 被 约束 为 正 交 时 ， 我 们 可 以 高 
效 地 解雇 这 个 问题 。 这 种 方法 通 利 被 称 为 OMP-k， 通 过 k 指 定 允 许 的 非 
零 特 征 数 量 。Coates and Ng (2011) 证 明 OMP-1 可 以 成 为 深度 架构 中 非 
fA SAE ik pe as 
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各 种 情况 下 便 用 黎 芒 正则 化 的 例 于 。 


7.11 Bagging 和 其 他 集成 方法 


Bagging (bootstrap en 是 通过 结合 几 个 模型 降低 汉化 误差 的 
技术 (Breiman，1994) 。 主 要 想法 是 分 别 训练 几 个 不 同 的 模型 ， 然 后 


让 所 有 模型 表决 测试 样 例 iil. REN Las J PS ER A — A 
子 ， 被 称 为 模型 平均 (model averaging) 。 米 用 这 种 策略 的 技术 被 称 为 
集成 万 法 。 


模型 平均 (model averaging) 答 效 的 原因 是 不 同 的 檬 型 通常 不 会 在 测试 
集 上 产生 完全 相同 的 误差 。 


pt ee 假设 每 个 模型 在 每 个 例子 上 的 误差 是 Cj7 ， 
这 -11 niihiin 2) =v 且 协 方差 为 区 [ezejy] = c 的 多 


维 正 态 分 布 。 通 过 所 有 集成 模型 的 平均 预测 所 得 误 aoe + E; 
o Fe PII ae AF I REEE nv ’ 
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在 误差 完全 相关 即 c 二 =v 的 情况 下 ， 均 方 误差 减少 到 v， 所 以 模型 平均 没 
有 任何 帮助 。 在 错误 完全 不 相关 即 c 二 0 的 情况 下 ， 该 集成 平方 误差 的 期 


TERS U 。 这 意味 痢 集 成 平方 误 关 的 期 望 会 随 痢 集成 规模 增 大 而 线 


性 减 小 。 换 言 之 ， 平 均 上 ， 集 成 至 少 与 它 的 任何 成 员 表 现 得 一 样 好 ， 并 
且 如 果 成 员 的 误差 是 独立 的 ， 集 成 将 显著 地 比 其 成 员 表 现 得 更 好 。 


不 同 的 集成 方法 以 不 同 的 方式 构建 集成 模型 。 例 如 ， 集 成 的 每 个 成 员 可 
以 使 用 不 同 的 算法 和 目标 函数 训练 成 完全 不 同 的 模型 。Bagging 是 一 种 
允许 重复 多 次 使 用 同一 种 模型 、 训 练 算法 和 目标 函数 的 方法 。 


具体 来 说 ，Bagging 涉 及 构造 k 个 不 同 的 数据 集 。 每 个 数据 集 从 原始 数据 
集中 重复 采样 构成 ， 和 原始 数据 集 具 有 相同 数量 的 样 例 。 这 意味 着 ， 每 
个 数据 集 以 部 概率 缺少 一 些 来 目 原 始 数据 集 的 例子 ， 还 包 侣 生 干 重复 的 
例子 《如 条 所 得 训练 集 与 原始 数据 集 大 小 相同 ， 那 所 得 数据 集中 大 概 有 
原始 数据 集 2/3 的 实例 ) 。 模 型 在 数据 集 i 上 训练 。 每 个 数据 集 所 含 样本 
的 舌 寞 导 作 了 训练 模型 之 间 的 矢 寞 。 图 7.5 古 一 个 例子 。 


原始 数据 集 
PEP = PRR 
第 二 个 重 采样 数据 集 第 二 个 集成 成 员 


Sop 


图 7.5 fie Bagging Wf") TAF HY 5 f 假设 我 们 在 上 述 数 据 集 (包含 一 个 8、 一 个 6 和 一 个 9) 上 
训练 数字 8 的 检测 费 ， 假 设 我 们 制作 了 两 个 不 同 的 重 灯 样 数据 集 ，Bagging 训 练 程序 通过 有 放 回 
采样 构建 这 些 数据 集 。 第 一 个 数据 集 忽略 9 并 重复 8。 在 这 个 数据 集 上 ， 检 测 硕 得 知 数字 项 部 有 


一 个 环 就 对 应 于 一 个 8。 第 二 个 数据 集中 ， 我 们 忽略 6 并 重复 9。 在 这 种 情况 下 ， 检 测 器 得 知 数字 
底部 有 一 个 环 就 对 应 于 一 个 8。 这 些 单独 的 分 类 规则 中 的 每 一 个 都 是 不 可 靠 的 ， 但 如 果 我 们 平均 
它们 的 输出 ， 就 能 得 到 鲁 棒 的 检测 器 ， 只 有 当 8 的 两 个 环 都 存在 时 才能 实现 最 大 置信 度 


神经 网 络 能 找到 足够 多 的 不 同 的 解 ， 意 味 痢 它们 可 以 从 模型 平均 中 受益 

(即使 所 有 模型 都 在 同一 数据 集 上 训练 ) 。 神 经 网 络 中 随机 初始 化 的 锚 
弄 、 小 批量 的 随机 选择 、 超 参数 的 到 弄 或 不 同 输出 的 非 确 定性 实现 往往 
Ke DIE FS BEBE EY AS E A a oD A TRE o 
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算法 的 基准 时 ， 它 通 第 是 个 到 励 使 用 的 ， 因 为 任何 机 右 学 习 算 法 虱 可 以 
从 模型 平均 中 大 幅 获 荔 〈 以 增加 计算 和 存储 为 代价 〉。 


机 人 恬 学 习 比 赛 中 的 取胜 算法 通常 是 使 用 超过 几 十 种 檬 型 平均 的 方法 。 最 
近 一 个 突出 的 例子 是 Netflix Grand Prize (Koren, 2009) . 


不 是 所 有 构建 集成 的 技术 都 是 为 了 让 集成 模型 比 单 一 模型 更 加 正则 化 。 
例如 ， 一 种 补 称 为 Boosting 的 技术 (Freund and Schapire, 1996b, a) 构 
建 比 单个 模型 容量 更 高 的 集成 模型 。 通 过 辐 集 成 逐步 添加 神经 网 络 ， 
Boosting 已 经 被 应 用 于 构建 神经 网 络 的 集成 (Schwenk and “Bengio， 
1998) 。 通 过 逐渐 增加 神经 网 络 的 隐藏 单元 ，Boosting 也 可 以 将 单个 神 
经 网 络 解释 为 一 个 集成 。 


7.12 Dropout 


Dropout (Srivastava et al. , 2014) 提供 了 正则 化 一 大 类 模型 的 方法 ， 
计算 方便 但 功能 强大 。 在 第 一 种 近似 下 ，Dropout 可 以 被 认为 是 集成 大 

量 深 层 神 经 网 络 的 实用 Bagging 方 法 。Bagging 涉 及 训练 多 个 模型 ， 并 在 
每 个 测试 样本 上 评 佑 多 个 模型 。 当 每 个 模型 都 是 一 个 很 大 的 神经 网 络 

时 ， 这 似乎 是 不 切实 际 的 ， 因 为 训练 和 评估 这 样 的 网 络 需 要 花费 很 多 运 
行 时 间 和 内 存 。 退 党 我们 只 能 集成 5~10 个 神经 网 络 ， 如 Szegedy et al. 
(2014a) 集成 了 6 个 神经 网 络 赢得 ILSVRC， 超 过 这 个 数量 就 会 迅速 变 
得 难以 处 理 。Dropout 提 供 了 一 种 廉价 的 Bagging 集 成 近似 ， 能 够 训练 和 
评估 指数 级 数量 的 神经 网 络 。 


具体 而 语 ，Dropout 训 练 的 集成 包括 所 有 从 基础 网 络 除去 非 输 出 里 元 后 

形成 的 于 网 络 ， 如 图 7.6 所 示 。 最 先进 的 神经 网 络 基 于 一 系列 仿 射 变换 

和 非 线 性 变换 ， 我 们 只 需 将 一 些 单 元 的 输出 乘 零 融 能 有 效 地 删除 一 个 单 
元 。 这 个 过 程 需 要 对 模型 《如 径 问 基 函 数 网 络 ， 单 元 的 状态 和 参考 值 之 
间 存 在 一 定 区 列 ) 进行 一 些 修改 。 为 了 简单 起 见 ， 我 们 在 这 里 近 出 乘 零 
的 和 价 单 Dropout 算 法 ， 但 是 它 农 简单 修改 后 ， 可 以 与 从 网 络 中 移 除 单元 

的 其 他 操作 结合 使 用 。 
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图 7.6 ”Dropout 训 练 由 所 有 子 网 络 组 成 的 集成 ， 其 中 子 网 络 通 过 从 基本 网 络 中 删 际 非 输出 时 元 构 
建 。 我 们 从 具有 两 个 可 见 单 元 和 两 个 隐藏 单元 的 基本 网 络 开 始 。 这 4 个 单元 有 16 个 可 能 的 子 集 。 
右 图 展示 了 从 原始 网 络 中 丢弃 不 同 的 单元 子 集 而 形成 的 所 有 16 个 子 网 络 。 在 这 个 小 例子 中 ， 所 
得 到 的 大 部 分 网 络 没 有 输入 单元 或 没有 从 输入 连接 到 输出 的 路 入。 当 层 较 宽 时 ， 天 弃 所 有 从 输 
入 到 输出 的 可 能 路 径 的 概率 变 小 ， 所 以 这 个 问题 不 太 可 能 在 出 现 层 较 宽 的 网 络 中 


回想 一 下 Bagging 学 习 ， 我 们 定义 k 个 不 同 的 模型 ， 从 训练 集 有 放 回 采样 
构造 k 个 不 同 的 数据 集 ， 然 后 在 训练 集 i 上 训练 模型 1。Dropout 的 目标 古 
在 指数 级 数量 的 神经 网 络 上 近似 这 个 过 程 。 具 体 来 说 ， 在 训练 中 使 用 
Dropout 时 ， 我 们 会 使 用 基于 小 批量 产生 较 小 步 长 的 学 习 算 法 ， 如 随机 
梯度 下 降 等 。 我 们 每 次 在 小 批量 中 加 载 一 个 样本 ， 然 后 随机 抽样 应 用 于 
网 络 中 所 有 输入 和 隐藏 单 元 的 不 同 二 值 掩 码 。 对 于 每 个 单元 ， 捧 人 码 是 独 
并 玉 样 的 。 掩 码 值 为 1 的 采样 概 深 (导致 包含 一 个 时 元 ) 是 训练 开始 前 
一 个 固定 的 超 参 数 。 它 不 是 模型 当前 参数 值 或 输入 样本 的 函数 。 通 前 在 
每 一 个 小 批量 训练 的 神经 网 络 中 ， 一 个 输入 单元 被 包括 的 概率 为 0.8， 
一 个 隐藏 单元 被 包括 的 概率 为 0.5。 然 后 ， 我 们 运行 和 之 前 一 样 的 前 向 
传播 、 反 同 传 播 以 及 学 习 更 新 。 图 7.7 说 明了 在 Dropout 下 的 前 问 传 播 。 








图 7.7 在 使 用 Dropout 的 前 人 馈 网 络 中 前 同 传 播 的 示例 。“【〔 顶 部 ) 在 此 示例 中 ， 我 们 使 用 具有 两 个 
输入 单元 ， 具 有 两 个 隐藏 单元 的 隐藏 层 以 及 一 个 输出 单元 的 前 馈 网 络 。〔( 夺 部) 为 了 执行 具有 


Dropout 的 前 向 传播 ， 我 们 随机 地 对 向 量 p 进行 采样 ， 其 中 网 络 中 的 每 个 输入 或 隐藏 单元 对 应 一 
Wie p 中 的 每 项 都 是 二 值 的 且 独 立 于 其 他 项 采样 。 超 参数 的 采样 概率 为 1， 隐 藏 层 的 采样 概率 通 


音 为 0.5， 输 入 的 采样 概率 通 第 为 0.8。 网 络 中 的 每 个 单元 乘 以 相应 的 撼 码 ， 然 后 正常 地 继续 沿 痢 
网 络 的 其 余部 分 前 向 传播 。 这 相当 于 从 图 7.6 中 随机 选择 一 个 子 网 络 并 沿 着 前 向 传播 

更 正式 地 说 ， 假 设 一 个 拖 码 向 量 p 指定 被 包括 的 单元 ，.] (9, pe) 是 由 
参数 9 MH p 定义 的 模型 代价 。 那 么 Dropout 训 练 的 目标 是 最 小 化 











E,,J(0, p) 。 这 个 期 望 包含 多 达 指 数 级 的 项 ， 但 我 们 可 以 通过 抽样 p 
获得 梯度 的 无 偏 估计 


Dropoutil| 练 与 Bagging 训 练 不 太一 样 。 在 Bagging 的 情况 下 ， 所 有 模型 都 
是 独立 的 。 在 Dropout 的 情况 下 ， 所 有 模型 共享 参数 ， 其 中 每 个 模型 继 

承 父 人 神经 网 络 参 数 的 不 同 子 集 。 参 数 共 诗 使 得 在 有 限 可 用 的 内 存 下 表示 
和 数 级 数量 的 模型 变 得 可 能 。 在 Bagging 的 情况 下 ， 每 一 个 模型 在 其 相 

应 训练 集 上 训练 到 收敛 。 在 Dropout 的 情况 下 ， 通 党 大 部 分 模型 都 没有 

显 式 地 被 训练 ， 因 为 通常 父 神经 网 络 会 很 大 ， 以 至 于 到 宇宙 毁灭 都 不 可 
能 采样 完 所 有 的 子 网 络 。 取 而 代 之 的 是 ， 在 单个 步骤 中 我 们 训练 一 小 部 
分 的 子 网 络 ， 参 数 共 享 会 使 得 剩余 的 子 网 络 也 能 有 好 的 参数 设 定 。 这 些 
是 仅 有 的 区 别 。 除 了 这 些 ，Dropout 与 Bagging 算 法 一 样 。 人 例如， 每 个 子 
网 络 中 过 到 的 训练 集 确实 是 有 放 回 采样 的 原始 训练 集 的 一 个 子 集 。 


Bagging 和 集成 必须 根据 所 有 成 员 的 累积 投票 做 一 个 了 预测。 在 这 种 背景 

下 ， 我 们 将 这 个 过 程 称 为 推断 (inference) . HAY AIE, 我 们 在 介绍 
Bagging 和 Dropout 时 没有 要 求 模型 具有 明确 的 概率 。 现 在 ， 我 们 假定 该 
模型 的 作用 是 输出 一 个 概率 分 布 。 在 Bagging 的 情况 下 ， 每 个 模型 产生 
一 个 概率 分 布 pt) (wy | x) 。 集 成 的 预测 由 这 些 分 布 的 算术 平均 值 给 
出 : 


> 


k 
| i 
T > pia) (7.52) 


1 


fEDropoutH A P> ALFE H 定义 每 个 子 模型 的 概率 分 布 
ply | ,人 凡 ) 。 所 有 掩 码 的 算术 平均 值 由 下 式 给 出 ; 


> _p(p)ply | x, p) (7.53) 
H 


其 中 p(y EIRE KIE u 的 概率 分 布 。 


因为 这 个 求 和 包含 多 达 指 数 级 的 项 ， 除 非 该 模型 的 结构 允许 条 种 形式 的 
简 人 化， 否则 有 古 不 可 能 计算 的 。 目 前 为 止 ， 无 法 得 知 深 度 神 经 网 络 是 合 允 
许 东 种 可 行 的 徐 化 。 相 反 ， 我 们 可 以 通过 采样 近似 推 凑 ， 即 平均 许多 掩 
人 码 的 输出 。 即 使 是 10~20 个 撞 人 码 就 足以 获得 人 不错 的 表现 。 


然而 ， 一 个 更 好 的 方法 能 不 错 地 近似 整个 集成 的 预测 ， 且 只 需 一 个 前 问 
传播 的 代价 。 要 做 到 这 一 点 ， 我 们 改 用 集成 成 员 预 测 分 布 的 几何 平均 而 
不 是 算术 平均 。Warde-Farley et al. (2014) 提出 的 论点 和 经 验证 据 表 
明 ， 在 这 个 情况 下 几何 平均 与 算术 平均 表现 得 又 不 多 。 


多 个 概率 分 布 的 几何 平均 不 能 保证 是 一 个 概率 分 布 。 为 了 你 证 结束 是 一 
个 概率 分 布 ， 我 们 要 求 没 有 子 人 异型 给 东 一 事件 分 配 概率 0， 并 重新 标准 
化 所 得 分 布 。 通 过 几何 平均 百 接 定义 的 非 标准 化 概率 分 布 由 下 陈 给 出 : 


Pensemble(Y | x ) = 


za] | | p(y | æ, p) 
u 





其 中 d 是 可 被 丢 茎 的 单元 数 。 这 里 为 简化 介绍 ， 我 们 使 用 均匀 分 布 的 p 
， 但 非 均 匀 分 布 也 是 可 以 的 。 为 了 作出 了 预测， 我 们 必须 重新 标准 化 集 
成 : 


Wi SE ae = (7.55) 

涉及 Dropout 的 一 个 重要 观点 〈Hinton et al. , 2012c) 是 ， 我 们 可 以 通过 

评估 模型 中 D( 2 | at) 来 近似 p ensemble: 该 模型 具有 所 有 单元 ， 但 我 们 

将 单元 i 的 输出 的 权重 乘 以 单元 i 的 被 包含 概 诗 。 这 个 修改 的 动机 是 得 到 

从 该 单元 萌 出 的 正确 期 望 值 。 我 们 把 这 种 方法 称 为 权重 比例 推 新 规则 
(weight scaling inference rule) 。 目 前 还 没有 在 深度 非 线性 网 络 上 对 这 

种 近似 推断 规则 的 准确 性 作 任 何 理论 分 析 ， 但 经 验 上 表现 得 很 好 。 


因为 我 们 通常 使 用 上 的 包含 概率 ， 权 重 比例 规则 一 般 相 当 于 在 训练 结 

后 将 权重 除 2， 然 后 像 平 营 一 样 使 用 模型 。 实 现 相 同 结果 的 另 一 种 方法 
是 在 训练 期 间 将 单元 的 状态 乘 2。 无 论 哪 种 方式 ， 我 们 的 目标 是 确保 在 
测试 时 一 个 单元 的 期 望 总 输入 与 在 训练 时 该 单元 的 期 望 总 输入 是 大 致 相 
同 的 《即使 近 半 单位 在 训练 时 丢失 ) 。 


对 许多 不 具有 非 线 性 隐 志 单元 的 醒 型 族 而 言 ， 权 重 比例 推 亲 规则 十 猜 确 
的 。 举 个 简单 的 例 于 ， 考 夸 softmax 函 数 回 归 分 关 ， 其 中 由 辣 量 Y 表示 n 
个 输入 变量 : 


Piy = y | v) = softmax( W'iv+ b), (7.56) 


我 们 可 以 根据 二 值 问 量 d ETARE — SFR ET I: 


P(y = y | v; d) = softmax( W (dev) + b) (7.27) 


y 


集成 预测 右 被 定义 为 重新 标准 化 所 有 集成 成 员 预 测 的 几何 平均 : 
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msembie(Y = ¥ | V 
Penaembie (y — 2 | v) = oi (7.58) 
„u! t ensemble Y = y 
Aart (y | v) 
其 中 
i =p | v) —= gn 机 Ply B. | V; d) (7.59) 





de{0,1}” 
















i = y | v) = I] Ply =g | V; d) (7.60) 
d€{0,1}” 
= oe [I softmax( W'(d OW) + b), (7.61) 
de{0,1}" 
_ exp( W,.(d ©v)+ b,) (7.62) 
actos dy eXP(W,,, .(d Ov) + by) 
/Tlaetoayr exp( Wy,.(d © v) + by) 
Sai i : (7.63) 


Tae mij Ea exp( W, .(d Ov) + by) 


由 于 p 将 被 标准 化 ， 我 们 可 以 放心 地 忽略 那些 相对 y 不 变 的 乘法 : 





加 二 | v) OG an Ji exp( W,.(d © v) T b,,) (7.64) 
de{0,1}” 
1 
= exp (ž > Wi .(dov)+t 本 (7.65) 
de{0,1}" 


1 
= exp (= W,.v 十 by ) (7.66) 


将 其 代入 式 (7.58) , 我 们 得 到 了 一 个 权重 为 Ww HJsoftmax PK ži 
分 类 器 。 


权重 比例 推 上 规则 在 其 他 设 定 下 也 是 精确 的 ， 包 括 条 件 正 态 输 出 的 回归 
网 络 以 及 那些 隐 茂 层 不 包含 非 线 性 的 深度 网 络 。 然 和 而， 权重 比例 推 上 规 
则 对 具有 非 线 性 的 深度 模型 仅仅 是 一 个 近似 。 虽 然 这 个 近似 疝 未 有 理论 
上 的 分 析 ， 但 在 实践 中 往往 效果 很 好 。Goodfellow et al. (2013b) 实验 
及 现 ， 在 对 集成 预测 的 近似 方面 ， 权 重 比 例 推 呆 规则 比 桶 特 卡 多 近似 更 
好 《了 吏 分 类 精度 而 言 ) 。 即 使 允许 脓 特 卡 多 近似 采样 多 达 1000 子 网 络 时 
也 比 不 过 权重 比例 推断 规则 。Gal and Ghahramani (2015) 发 现 一 些 模 
型 可 以 通过 20 个 样本 和 有 绽 特 卡 岁 近 似 获得 更 好 的 分 类 精 度 。 似 乎 推断 近 
似 的 最 佳 选 择 是 与 问题 相关 的 。 


Srivastava et al. (2014) 显示 ，Dropout 比 其 他 标准 的 计算 开销 小 的 正则 
MITE GUNES. WUE ASU BAN OR TC A IE WU) 更 有 效 。 
Dropout 也 可 以 与 其 他 形式 的 正则 化 合并 ， 得 到 进一步 的 提升 。 


计算 方便 是 Dropout 的 一 个 优点 。 训 练 过 程 中 使 用 Dropout 产 生 n 个 随机 二 
进 制 数 与 状态 相 乘 ， 每 个 样本 每 次 更 新 只 需 QO (1) 的 计算 复杂 度 。 根 据 
实现 ， 也 可 能 需要 O(n) 的 存储 空间 来 持续 保存 这 些 二 进 制 数 (下 到 反 
向 传播 阶段 ，。 使 用 训练 好 的 模型 推断 时 ， 计 算 每 个 样本 的 代价 与 不 使 
用 Dropout 是 一 样 的 ， 尺 省 我 们 必须 在 开始 运行 推 凯 前 将 权重 除 以 2。 


Dropout 的 男 一 个 显著 优点 是 不 怎么 限制 适用 的 模型 或 训练 过 程 。 几 平 
在 所 有 使 用 分 布 式 表示 且 可 以 用 随机 梯度 下 降 训练 的 模型 上 都 表现 很 
好 。 包 括 前 馈 神 经 网 络 、 概 深 模 型， 如 受 限 玻 尔 兹 曼 机 (Srivastava et 
al. , 2014) ， 以 及 循环 神经 网 络 (Bayer and Osendorfer, 2014; 
Pascanu et al.，，2014a)〉)。 许 多 效果 甘 不 多 有 的 其 他 正则 化 策略 对 模型 结 
构 的 限制 更 严格 。 


虽然 Dropout 在 特定 模型 上 每 一 步 的 代价 是 微不足道 的 ， 但 在 一 个 完整 
的 系统 上 使 用 Dropout 的 代价 可 能 非常 显 着 。 因 为 Dropout 古 一 个 正则 化 
拉 术 ， 它 减少 了 模型 的 有 效 容量 。 为 了 抵消 这 种 有 影 响 ， 我 们 必须 增 大 标 
型 规模 。 不 出 意外 的 话 ， 使 用 Dropout 时 最 佳 验证 集 的 误差 会 低 很 多 ， 
但 这 是 以 更 大 的 模型 和 更 多 训练 算法 的 迭代 次 数 为 代价 换 来 的 。 对 于 非 


EA NWA e, IEMA OR NZ hie eva > BD. FEKETE 
Fa Dropout #ll E KERA A ERR PD Re ETE VU ar EE A 


只 有 极 少 的 训练 样本 可 用 时 ，Dropout 不 会 很 有 效 。 在 只 有 不 到 5000 的 

样本 的 Alternative Splicing 数 据 集 上 (Xiong etal., 2011) ， 贝 叶 斯 神经 
网 络 (Neal, 1996) 比 Dropout 表 现 得 更 好 (Srivastava et al. , 2014) 。 

当 有 其 他 未 分 类 的 数据 可 用 时 ， 无 监督 特征 学 习 也 比 Dropout 更 有 优 

FAL 


Wager et al. (2013) 表明 ， 当 Dropout 作 用 于 线性 回归 时 ， 相 当 于 每 个 
输入 特征 具有 不 同 权 重 衰减 系数 的 站“ 权重 衰减 。 每 个 特征 的 权重 衰减 
系数 的 大 小 是 由 其 方 双 来 确定 的 。 其 他 线性 模型 也 有 类 似 的 结果 。 而 对 
于 深度 模型 而 言 ，Dropout 与 权重 衰减 是 不 等 同 的 。 


使 用 Dropout 训 练 时 的 随机 性 不 是 这 个 方法 成 功 的 必要 和 条件。 它 仅 仅 是 
近似 所 有 子 模型 总 和 的 一 个 方法 。Wang and Manning (2013) Sih sit 
似 这 种 边缘 分 布 的 解析 解 。 他 们 的 近似 被 称 为 快速 Droponut (fast 
dropout) ， 减 小 樟 度 计算 中 的 随机 性 而 获得 更 快 的 收 伍 速度 。 这 种 方法 
也 可 以 在 测 话 时 应 用 ， 能 够 比 权重 比例 推 盯 规则 更 合理 地 《但 计算 也 更 
rot) 近似 所 有 子 网 络 的 平均 。 快 速 Dropout 在 小 神经 网 络 上 的 性 能 
平 与 标准 的 Dropout 相 当 ， 但 在 大 问题 上 尚未 产生 显 阁 改善 或 尚未 应 

FA 


随机 性 对 实现 Dropout 的 正则 化 效果 不 是 必要 的 ， 同 时 也 不 是 充分 的 。 
为 了 证 明 这 一 点 ，Warde-Farley et al. (2014) 使 用 一 种 被 称 为 Dropout 
Boosting ”的 方法 设计 了 一 个 对 照 实验 ， 上 共有 与 传统 Dropout 方 法 完全 相 
同 的 噪声 掩 码 ， 但 缺乏 正则 化 效果 。Dropout Boosting 训 练 整 个 集成 以 最 
大 化 训练 集 上 的 似 然 。 从 传统 Dropout 类 似 于 Bagging 的 角度 来 看 ， 这 种 
方式 类 似 于 Boosting。 如 预期 一 样 ， 和 单一 模型 训练 整个 网 络 相 比 ， 
Dropout Boosting 几 平 没 有 正则 化 效果 。 这 表明 ， 使 用 Bagging 解 释 
Dropout 比 使 用 稳健 性 噪声 解释 Dropout 更 好 。 只 有 当 随 机 抽样 的 集成 成 
员 相 互 独立 地 训练 好 后 ， 才 能 达到 Bagging 集 成 的 正则 化 效果 。 


Dropout 局 发 其 他 以 随机 方法 训练 指数 量 级 的 共享 权重 的 集成 。 
DropConnect 和 是 Dropout 的 一 个 特殊 情况 ， 其 中 一 个 标量 权重 和 单个 隐 医 
里 元 状态 之 间 的 每 个 乘积 航 认 为 是 可 以 丢 弄 的 一 个 单元 (Wan et al. ， 


2013) 。 随 机 池 化 是 构造 卷 积 神经 网 络 集成 的 一 种 随机 化 池 化 的 形式 
( 见 第 9.3 节 ) ， 其 中 每 个 郑 积 网 络 参与 每 个 特征 图 的 不 同 空 间 位置 。 
目前 为 止 ，Dropout 仍 然 是 最 广泛 使 用 的 隐 式 集成 方法 。 


一 个 基于 Dropout 的 重要 见解 是 ， 通 过 随机 行为 训练 网 络 并 平均 多 个 随 
机 决定 进行 了 预测， 实现 了 一 种 参数 共计 的 Bagging 形 式 。 早 些 时 候 ， 我 
们 将 Dropout 描 述 为 通过 包括 或 排除 单元 形成 模型 集成 的 Bagging。 然 
而 ， 这 种 参数 共 诗 案 略 不 一 定 要 基于 包括 和 排除 。 原 则 上 ， 任 何 一 种 随 
机 的 修改 都 是 可 接受 的 。 在 实践 中 ， 我 们 必须 选择 让 和 神经 网 络 能 够 学 习 
对 抗 的 修改 类 型 。 在 理想 情况 下 ， 我 们 也 应 该 使 用 可 以 快速 近似 推 则 的 
模型 族 。 我 们 可 以 认为 由 同 量 六 参数 化 的 任何 形 陈 的 修改 ， 是 对 玉 所 有 
可 能 的 值 训练 p Cy | x, pw) 的 集成 。 注 意 ， 这 里 不 要 求 p 具有 有 限 数 
SNH. PO, p 可 以 是 实 值 。Srivastava et al. (2014) 表明 ， 权 重 乘 
Vu ~ N (1, I) 比 基 于 二 值 掩 码 Dropout 表 现 得 更 好 。 由 于 
E[u — | , ERN AJ KMR RAAE, mA is BEA HELE 
TE BT A DI o 


目前 为 止 ， 我 们 将 Dropout 介 绍 为 一 种 纯粹 高 效 近似 Bagging 的 方法 。 然 
而 ， 还 有 比 这 和 更 进一步 的 Dropout 观 点 。Dropout 不 仅仅 是 训练 一 个 
Bagging 的 集成 模型 ， 而 且 是 共 宇 隐藏 单元 的 集成 模型 。 这 和 意味 看 无 论 
其 他 隐 疾 单元 是 个 在 模型 中 ， 每 个 隐藏 单元 必须 都 能 够 表现 民 好 。 隐 茂 
单元 必须 准备 好 进行 模型 之 间 的 交换 和 互 换 。Hinton et al. (2012d) 由 
生物 学 的 想法 受到 局 友 : AEKA RANA EE REN], 
进化 产生 的 压力 使 得 基因 不 仅 是 恨 好 的 ， 而 且 要 准备 好 不 同 有 机 体 之 间 
的 交换 。 这 样 的 基因 和 这 些 特点 对 环境 的 变化 是 非常 稳健 的 ， 因 为 它们 
一 定 会 正确 适应 任何 一 个 有 机 体 或 模型 不 寻 稼 的 特性 。 因 此 Dropout 正 
则 化 每 个 隐 基 单元 不 仅 是 一 个 很 好 的 特征 ， 更 要 在 许多 情况 下 是 民 好 的 
特征 。Warde-Farley et al. (2014) 将 Dropout 与 大 和 集成 的 训练 相 比 并 得 
出 结论 : 相 比 独立 模型 集成 获得 泛 化 误 天 改 进 ，Dropout 会 市 来 额外 的 
改进 。 


Dropout 强 大 的 大 部 分 原因 来 自 施加 到 隐藏 单元 的 掩 码 噪声 ， 了 解 这 一 
事实 是 重要 的 。 这 可 以 看 作对 输入 内 容 的 信息 高 度 智能 化 、 自 适应 破坏 
的 一 种 形式 ， 而 不 是 对 输入 原始 值 的 破坏 。 例 如 ， 如 果 模 型 学 得 通过 鼻 
检测 脸 的 隐藏 单元 h; ， 那 么 丢失 hi 对 应 于 擦 除 图 像 中 有 鼻子 的 信息 。 模 


型 必须 学 习 另 一 种 h; ， 要 么 是 鼻子 存在 的 元 余 编码 ， 要 么 是 像 嘴 这 样 的 
部 的 另 一 特征 。 传 统 的 噪声 注入 技术 ， 在 输入 端 加 非 结构 化 的 噪声 不 
能 够 随机 地 从 脸 部 图 像 中 抹 去 关于 鼻子 的 信息 ， 除 非 噪声 的 幅度 大 到 几 
乎 能 抹 去 图 像 中 所 有 的 信息 。 破 坏 提取 的 特征 而 不 是 原始 值 ， 让 破坏 过 
程 充分 利用 该 模型 迄今 获得 的 关于 输入 分 布 的 所 有 知识 ， 


Dropout 的 另 一 个 重要 方面 是 噪声 是 乘 性 的 。 如 果 是 固定 规模 的 加 性 品 
E, WAM TRIBE ”的 整流 线性 隐藏 单元 可 以 简单 地 学 会 使 hi 变 得 很 
大 〈 使 增加 的 噪声 EE 变 得 不 显著 ) 。 乘 性 噪声 不 允许 这 样 病态 地 解决 


噪声 鲁 棒 性 问题 。 


另 一 种 深度 学 习 算 法 一 批 标准 化 ， 在 训练 时 癌 隐 蔚 单 元 引入 加 性 和 乘 
性 噪声 重新 参数 化 模型 。 批 标准 化 的 主要 目的 是 改善 优化 ， 但 噪声 其 有 
正则 化 的 效果 ， 有 时 没 必 要 再 使 用 Dropout。 批 标准 化 将 会 在 第 8.7.1 节 
中 被 更 详细 地 讨论 。 


7.13 ”对 抗 训练 


在 许多 情况 下 ， 神 经 网 络 在 独立 同 分 布 的 测试 集 上 进行 评估 已经 达到 了 
人 类 表现 。 因 此 ， 我 们 目 然 要 怀疑 这 些 模型 在 这 些 任 务 上 是 人 否 获 得 了 真 
正 的 人 类 层次 的 理解 。 为 了 探 寺 网 络 对 压 层 任务 的 理解 层次 ， 我 们 可 以 
探索 这 个 模型 错误 分 类 的 例子 。Szegedy et al. (2014b) 发 现 ， 在 精度 
达到 人 类 水 平 的 神经 网 络 上 通过 优化 过 程 故 意 构 造 数 据点 ， 其 上 的 误 玫 
KIT 100% , BRAY EIR MLA Riga 的 输出 与 附近 的 数据 点 x 非常 不 
同 。 在 许多 情况 下 ， a! 与 x FER, AREA ASS it URE AS 
和 对 抗 样本 (adversarial example) 之 间 的 差异 ， 但 是 网 络 会 做 出 非常 
不 同 的 预 训 ， 如 图 7.8 所 示 。 
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图 7.8 在 ImageNet 上 应 用 GoogLeNet (Szegedy etal., 2014a) 的 对 抗 样本 生成 的 演示 。 通 过 添 
加 一 个 不 可 察 和 沈 的 小 回 量 (其 中 元 系 等 于 代价 疯 数 相对 于 输入 的 梯度 元 系 的 符号 ) ， 我 们 可 以 
改变 GoogLeNet 对 此 图 像 的 分 类 结果 。 经 Goodfellow etal. (2014b) 许可 转载 


对 抗 样 本 在 很 多 领域 有 很 多 影响 ， 例 如 计算 机 安全 ， 这 超出 了 本 章 的 苑 
围 。 然 而 ， 写 们 在 正则 化 的 育 景 下 很 有 意思 ， 因 为 我 们 可 以 通过 对 抗 训 
Zk (adversarial training) 减少 原 有 独立 同 分 布 的 测试 集 的 错误 深 一 一 在 
对 抗 扰动 的 训练 集 样本 上 训练 网 络 (Szegedy etal., 2014b; Goodfellow 
etal. ，2014b) . 





Goodfellow et al. (2014b) WHH, 1 HOXT TERA WEEN EWE 
线性 。 神 经 网 络 主要 是 基于 线性 块 构 建 的 。 因 此 在 一 些 实 验 中 ， 它 们 实 
现 的 整体 函数 被 证 明 是 高 度 线性 的 。 这 些 线性 函数 很 容易 优化 。 不 笠 的 
是 ， 如 果 一 个 线性 函数 具有 许多 输入 ， 那 么 它 的 值 可 以 非常 迅速 地 改 
变 。 如 采 我 们 用 改变 每 个 输入 ， 那 么 权重 为 w 的 线性 函数 可 以 改变 
E wll 之 多 ， 如 果 w 是 高 维 的 这 会 是 一 个 非常 大 的 数 。 对 抗 训 练 通 过 
戈 励 网 络 在 训练 数据 附近 的 局 部 区 域 恒 定 来 限制 这 一 高 度 敏感 的 局 部 线 
aie 这 可 以 看 作 一 种 明确 地 同 监 督 神经 网 络 引 入 局 部 恒定 先 验 有 的 方 
法 。 


对 抗 训练 有 助 于 体现 积极 正则 化 与 大 型 函数 族 结合 的 力量 。 纯 粹 的 线性 
模型 ， 如 逻辑 回归 ， 由 于 它们 被 限制 为 线性 而 无 法 抵抗 对 抗 样本 。 神 经 
网 络 能 够 将 函数 从 接近 线性 转化 为 局 部 近似 恒定 ， 从 而 可 以 灵活 地 捕获 
到 训练 数据 中 的 线性 趋势 同时 和 学 习 抵抗 局 部 扰动 。 








XY DUPAGE SBP SEA tn BE TIE FES SESE PEN pe 
REIKIA x Mb, BAR A op a ey 。 模 型 的 标记 V 未 必 是 
真正 的 标签， 但 如 末 模 型 是 高 品质 的 ， May 提供 正确 标签 的 可 能 性 很 
大 。 我 们 可 以 搜索 一 个 对 抗 样本 人 导致 分 类 器 输出 一 个 标签 wj 且 
y’ ra Y。 不 使 用 真正 的 标签 ， 而 是 由 训练 好 的 模型 提供 标签 产生 的 对 
抗 样 本 航 称 为 虚拟 对 抗 样本 (virtual adversarial example) (Miyato et 
al., 2015) 。 我 们 可 以 训练 分 类 器 为 x 和 池 分 配 相同 的 标签 。 这 鼓励 
分 类 妖 学 习 一 个 沿 看 未 标 侈 数据 所 在 流 形 上 任意 微小 变化 部 很 鲁 棒 的 函 
数 。 驱 动 这 种 方法 的 假设 是 ， 不 同 的 类 通 音 位 于 分 离 的 流 形 上 ， 并 且 小 
扰动 不 会 使 数据 点 从 一 个 类 的 法 形 跳 到 男 一 个 类 的 法 形 上 。 


7.14 切面 距离 、 正 切 传 播 和 流 形 正 切 分 类 器 


如 第 5.11.3 节 所 述 ， 许 多 机 器 学 习 通 过 假设 数据 位 于 低 维 流 形 附近 来 克 
服 维 数 灾难 。 


一 个 利用 流 形 假设 的 早期 笠 试 是 切面 距离 (tangent distance) 算法 

(Simard et al. , 1993, 1998) 。 它 是 一 种 非 参 数 的 最 近邻 算法 ， 其 中 
使 用 的 度量 不 是 通用 的 欧 儿 里 德 距 离 ， 而 是 根据 邻近 流 形 关于 聚集 概率 
的 知识 导出 的 。 这 个 算法 假设 我 们 尝试 分 类 的 样本 和 同一 流 形 上 的 样本 
具有 相同 的 类 别 。 由 于 分 类 器 应 该 对 局 部 因素 (对 应 于 流 形 上 的 移动 ) 
的 变化 保持 不 变 ， 一 种 合理 的 度量 是 将 点 x | 和 x ,各 目 所 在 流 形 M ; 和 
M , 的 距离 作为 点 x, 和 x ,之 加 的 最 近邻 距离 。 然 而 这 可 能 在 计算 上 是 
困难 的 〈《 它 需要 解决 一 个 寻找 M ; FIM o 最 近 点 对 的 优化 问题 ， 一 种 
局 部 合理 的 廉价 蔡 代 是 使 用 x ; 点 处 切 平 面 近似 Mi; ， 并 测量 两 条 切 平 面 
或 一 个 切 平面 和 点 之 间 的 距离 。 这 可 以 通过 求解 一 个 低 维 线性 系统 〔 碘 
流 形 的 维 数 而 言 ， 来 实现 。 当 然 ， 这 种 算法 需要 指定 那些 切 癌 量 。 


受 相 关 司 发 ， 正 切 传 播 (tangent prop) 算法 (Simard et al. , 1992) 
( 见 图 7.9) 训练 市 有 额外 惩 避 的 神经 网 络 分 类 需 ， 使 神经 网 络 的 每 个 
输出 f(x ) 对 已 知 的 变化 因 系 是 局 部 不 变 的 。 这 些 变 化 因 系 对 应 于 沿 看 的 

相同 样本 聚集 的 流 形 的 移动 。 这 里 实现 局 部 不 变性 的 方法 是 要 求 
Val (x) 与 已 知 流 形 的 切 向 v 外 正 交 ， 或 者 等 价 地 通过 正则 化 惩罚 8 
使 f 在 x 的 y 久 方向 的 导数 较 小 : 


AH =F (Vaf) Tw) (7.67) 


1 


这 个 正则 化 项 当然 可 以 通过 适当 的 超 参 数 缩放 ， 并 且 对 于 大 多 数 神经 网 
络 ， 我 们 需要 对 许多 输出 求 和 (此 处 为 了 描述 简单 ，f( ”x  ) 为 唯一 输 
H) o 与 切面 距离 算法 一 样 ， 我 们 根据 切 问 量 推导 先 验 ， 通 常 从 变换 
(如 平移 、 旋 转 和 缩放 图 像 ) 的 效果 获得 形式 知识 。 正 切 传播 不 仅 用 于 
监督 学 习 (Simard et al. , 1992) ， 还 在 强化 学 习 (Thrun, 1995) 中 有 
所 应 用 。 


Ta 


Ly 


图 7.9 ”正切 传播 算法 (Simard etal., 1992) 和 流 形 正切 分 类 器 主要 思想 的 示意 图 (Rifai et all. 
, 2011c) ， 它 们 都 正则 化 分 类 器 的 输出 函数 f( x )。 每 条 曲线 表示 不 同类 别 的 流 形 ， 这 里 表示 蔡 
入 二 维 空间 中 的 一 维 流 形 。 在 一 条 曲线 上 ， 我 们 选择 单个 点 并 绘制 一 个 与 类 别 流 形 (平行 并 接 
触 流 形 ) 相 切 的 向 量 以 及 与 类 别 流 形 ( 与 流 形 正 交 ) 垂直 的 向 量 。 在 多 维 情况 下 ， 可 以 存在 许 
多 切线 方向 和 法 线 方向 。 我 们 希望 分 类 函数 在 垂直 于 流 形 方 向 上 快速 改变 ， 并 且 在 类 别 流 形 的 
方 回 上 保持 不 变 。 正 切 传 播 和 流 形 正切 分 类 右 都 会 正则 化 f( x )， 使 其 不 随 x 沿 流 形 的 移动 而 剧 多 
变化 。 正 切 传 播 需 要 用 户 手 动 指定 正切 方 回 的 计算 函数 (例如 指定 小 平移 后 的 图 像 保 留 在 相同 
ARAN A) ， 而 流 形 正切 分 类 需 通 过 训练 目 编码 需 拟 合 训 练 数据 来 估计 流 形 的 正切 方 同 。 

我 们 将 在 第 14 章 中 讨论 使 用 目 编码 器 来 估计 流 形 


正切 传 播 与 数据 集 增 强 密切 相关 。 在 这 两 种 情况 下 ， 访 算法 的 用 户 通 过 
指定 一 组 应 当 不 会 改变 网 络 输出 的 转换 ， 将 其 先 验 知识 编码 至 算法 中 。 
不 同 的 是 在 数据 集 增强 的 情况 下 ， 网 络 显 式 地 训练 正确 分 类 这 些 施加 大 
量变 换 后 产生 的 不 同 输入 。 正 切 传 播 不 需要 显 式 访问 一 个 靳 的 输入 反 。 
取而代之 ， 它 解析 地 对 模型 正则 化 从 而 在 指定 转换 的 方向 抵抗 扰动 。 虽 








然 这 种 解析 方法 是 聪明 优雅 的 ， 但 是 它 有 两 个 主要 的 缺点 首先 ， 模 型 
的 正则 化 只 能 抵抗 无 穷 小 的 扰动 。 显 式 的 数据 集 增 强 能 抵抗 较 大 的 扰 
动 。 其 次 ， 我 们 很 难 在 基于 整流 线性 单元 的 模型 上 使 用 无 限 小 的 方法 。 
这 些 模型 只 能 通过 关闭 单元 或 缩小 它们 的 权重 才能 缩小 它们 的 导数 。 它 
们 不 能 像 sigmoid 或 tanh 单 元 一 样 通 过 较 大 权重 在 高 值 处 饱和 以 收缩 导 
数 。 数 据 集 增 强 在 整流 线性 单元 上 工作 得 很 好 ， 因 为 不 同 的 整 沉 单 元 会 
在 每 一 个 原始 输入 的 不 同 转换 版 本 上 被 油 活 。 


正切 传播 也 和 双 反 向 传播 (Drucker and LeCun, 1992) 以 及 对 抗 训练 
(Szegedy etal. ，2014b; Goodfellow etal. , 2014b) 有 关联 。 双 反问 传 
播 正 则 化 使 Jacobian 窍 阵 偏 小 ， 而 对 抗 训练 找到 原 输入 附近 的 点 ， 训 练 
模型 在 这 些 点 上 产生 与 原来 输入 相同 的 输出 。 正 切 传 播 和 手动 指定 转换 
的 数据 集 增强 者 要求 模 型 在 输入 变化 的 菜 些 特 定 的 方 同 上 你 持 不 变 。 双 
反问 传播 和 对 抗 训练 都 要 求 模 型 对 输入 所 有 方 回 中 的 变化 (只 要 该 变化 
较 小 ) 都 应 当 保 持 不 变 。 正 如 数据 集 增 强 是 正切 传播 非 无 限 小 的 版 本 ， 
对 抗 训练 是 双 反 回 传 播 非 无 限 小 的 厂 本 。 


流 形 正 切 分 类 器 (Rifai et al. ，2011d) 无 须知 道 切 线 向 量 的 先 验 。 我 们 
将 在 第 14 章 看 到 ， 目 编 但 右 可 以 估算 流 形 的 切 同 量 。 流 形 正 切 分 类 需 使 
用 这 种 技术 来 避免 用 户 指 定 切 癌 量 。 如 图 14.10 所 示 ， 这 些 估计 的 切 辣 
量 不 仅 对 图 像 经 典 几 何 变换 〈 如 转化 、 旋 转 和 缩放 ) 保持 不 变 ， 还 必须 
掌握 对 特定 对 象 〈 如 正在 移动 的 身体 茶 些 部 分 ) 保持 不 变 的 因素 。 因 此 
根据 流 形 正切 分 类 需 提 出 的 算法 相当 人 简单 : 使 用 目 编码 堪 通 过 无 监督 学 
习 来 学 习 流 形 的 结构 ， 以 及 如 正切 传播 ( 式 〈(7.67) ) 一 样 使 用 这 些 切 
面 正 则 化 神经 网 络 分 类 器 。 


在 本 章 中 ， 我 们 已 经 掏 述 了 大 多 数 用 于 正则 化 神经 网 络 的 通用 沫 略 。 正 
则 化 是 机 从 学 习 的 中 心 主题 ， 因 此 我 们 将 不 时 在 其 余 各 草 中 重新 回顾 。 
机 天 学 习 的 万 一 个 中 心 主题 是 优化 ， 我 们 将 在 下 一 草 描 述 。 


(1) 更 一 般 地 ， 我 们 可 以 将 参数 正则 化 为 接近 空间 中 的 任意 特定 点 ， 令 人 惊讶 的 是 这 样 也 仍 有 
正则 化 效果 ， 但 是 特定 点 越 接 近 真 实 值 结果 越 好 。 当 我 们 不 知道 正确 的 值 应 该 是 正 还 是 负 时 ， 
零 是 有 意义 的 玖 认 值 。 由 于 模型 参数 正则 化 为 零 的 情况 更 为 钟 见 ， 我 们 将 只 探讨 这 种 特殊 情 
况 。 














(2) 如 同 L 2 正则 化 ， 我 们 能 将 参数 正则 化 到 其 他 非 零 值 w (0 。 在 这 种 情况 下 ，L 1 正则 化 将 会 
引入 不 同 的 项 (2(0) 一 一 |w = wl) la = Dai wi — wr |, 

(3) ”对 于 神经 网 络 ， 我 们 需要 打破 隐藏 单元 间 的 对 称 平衡 ， 因 此 不 能 将 所 有 参数 都 初始 化 为 0 
(如 第 6.2 节 所 讨论 的 ) 。 然 而 ， 对 于 其 他 任何 初始 值 w (0) 该 论证 都 成 立 。 
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深度 学 习 算 法 在 许多 情况 下 都 涉及 优化 。 例 如 ， 模 型 中 的 进行 推 关 《如 
PCA) 涉及 求解 优化 问题 。 我 们 经 第 使 用 解析 优化 去 证 明 或 设计 算法 。 
在 深 大 学 习 涉 及 的 诸多 优化 问题 中 ， 最 难 的 是 神经 网 络 训 练 。 其 至 是 用 
几 白 台 机 占 投 入 几 天 到 几 个 月 来 解决 单个 神经 网 络 训 练 问 题 ， 也 是 很 党 
见 的 。 因 为 这 其 中 的 优化 问题 很 重要 ， 代 价 也 很 品 ， 因 此 研究 者 们 开 友 
了 一 组 专门 为 此 设计 的 优化 拉 术 。 本 章 会 介绍 神经 网 络 训 练 中 的 这 些 优 
化 技术 。 


如 果 你 不 熟 壬 基于 椰 拔 优化 的 基本 原则 ， 我 们 建议 回顾 第 4 革 。 访 草 简 
要 概述 了 一 般 的 数值 优化 。 


本 章 主 要 关注 这 一 多 特定 的 优化 问题 : 寻找 神经 网 络 上 的 一 组 参数 0 ， 
它 能 显 音 地 降低 代价 函数 J〈 9 ) ， 该 代价 函数 通 币 包括 整个 训练 集 上 
的 性 能 评估 和 额外 的 正则 化 项 。 


首先 ， 我 们 会 介绍 在 机 豆 学 习 任 务 中 作为 训练 算法 使 用 的 优化 与 纯 优 化 
有 哪些 不 同 。 其 次 ， 我 们 会 介绍 导致 神经 网 络 优化 困难 的 几 个 有 具体 挑 
战 。 再次， 我 们 会 介绍 几 个 实用 算法 ， 包 括 优化 算法 本 里 和 初 怒 化 参数 
的 策略 。 喝 融 级 的 算法 能 够 在 训练 中 目 适 应 调整 学 习 率 ， 或 者 使 用 代价 
孙 数 二 阶 导 数 包含 的 信息 。 最 后 ， 我 们 会 介绍 儿 个 将 简单 优化 算法 结合 
成 融 级 过 程 的 优化 傈 上 略 ， 以 此 作为 总 结 。 


8.1 学 习 和 纯 优 化 有 什么 不 同 


用 于 深度 模型 训练 的 优化 算法 与 传统 的 优化 算法 在 几 个 方面 有 所 不 同 。 
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性 能 度量 P， 其 定义 于 测试 集 上 并 且 可 能 是 不 可 解 的 。 因 此 ， 我 们 只 有 是 
间接 地 优化 P。 我 们 硕 副 通过 降低 代价 函数 J〈 6 ) 来 提 珊 P。 这 一 扩 与 
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J(8) A J L(f (£; 0). y) (8.1) 


其 中 是 每 个 样本 的 损失 函数 ， 了 (2; 0) 是 输入 x 时 所 预测 的 输出 ， 
Ddata 是 经 验 分 布 。 监 督学 习 中 ，y 是 目标 输出 。 在 本 章 中 ， 我 们 会 介 
绍 不 带 正则 化 的 无 监督 学 习 ，L 的 变量 是 了 (2; 89) 和 y。 不 难 将 这 种 监 
督学 习 扩展 成 其 他 形式 ， 如 包括 9 或 者 x 作为 参数 ， 或 是 去 掉 参 数 y， 
以 发 展 不 同形 式 的 正则 化 或 是 无 监督 学 习 。 


A (8.1) 定义 了 训练 集 上 的 目标 函数 。 通 钟 ， 我 们 更 布 户 最 小 化 取 目 
数据 生成 分 布 p qata 的 期 望 ， 而 不 仅仅 是 有 限 训 练 集 上 的 对 应 目标 函数 : 


J*(0) = Epey A (E; 0), y) (8.2) 
8.1.1 经 验 风 险 最 小 化 


机 器 学 习 算 法 的 目标 是 降低 式 (8.2) 所 示 的 期 望 泛 化 误差。 这 个 数据 
量 被 称 为 风险 (risk) 。 在 这 里 ， 我 们 强调 该 期 望 取 目 真 实 的 潜在 分 布 
Paaa 。 如 果 我 们 知道 了 真实 分 布 p daa X ,y)， 那 么 最 小 化 风险 变 成 了 一 
个 可 以 被 优化 算法 解决 的 优化 问题 。 然 而 ， 我 们 过 到 的 机 右 学 习 问 题 ， 
通 间 是 不 知道 ps (X,y)， 只 知道 训练 集中 的 样本 。 


将 机 器 学 习 问 题 转化 回 一 个 优化 问题 的 最 刹 里 方法 古 最 小 化 训 绕 集 上 的 
期 望 损失 。 这 意味 着 用 训练 集 上 的 经 验 分 布 D(T， y ) 蔡 代 真实 分 布 p( x 
,y)。 现 在 ， 我 们 将 最 小 化 经 验 风 险 (empirical risk) : 


1 YL | 7 
Ex,y~pantalL(f (#3), Z Y L( f(a; @), y) (8.3) 


其 中 中 表示 训练 样本 的 数目 。 


基于 最 小 化 这 种 平均 训练 府 于 的 训练 过 程 补 称 为 经 验 风 险 最 小 化 
(empirical risk minimization) 在 这 种 情况 下 ， 机 妖 学 习 仍 然 和 传统 的 直 


接 优化 很 相似 。 我 们 并 不 直接 最 优化 风险 ， 而 是 最 优化 经 验 风 险 ， 布 户 
也 能 够 很 大 地 降低 风险 。 一 系列 不 同 的 理论 构造 了 一 些 条 件 ， 使 得 在 这 
些 条 件 下 真实 风险 的 期 组 可 以 下 降 不 同 的 量 。 


人 然而， 经验 风险 最 小 化 很 容易 导致 过 拟 合 。 融 容 量 的 模型 会 侧 单 地 记 住 
训练 集 。 在 很 多 情况 下 ， 经 验 风险 了 最 小 化 并 非 芮 的 可 行 。 最 有 效 的 现代 
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没有 有 效 的 村 数 〈( 守 数 要 么 为 零 ， 要 么 处 处 未 定义 ) 。 这 两 个 问题 说 

明 ， 在 深度 学 习 中 我 们 很 少 使 用 经 验 风 险 最 小 化 。 有 反之， 我 们 会 使 用 一 
a SS I ER ts eee 
目标 。 


8.1.2 ”代理 损失 函数 和 提前 终止 


有 时 ， 我 们 真正 关心 的 损失 函数 《〈 比 如 分 类 误 甜 ) 并 不 能 被 珊 效 地 优 
化 。 例 如 ， 即 使 对 于 线性 分 类 人 右 而 言 ， 精 确 地 最 小 化 0-1 损 失 通 党 是 不 
可 解 的 (复杂 上 度 是 输入 维 数 的 指数 级 别 ) (Marcotte and Savard, 
1992) 。 在 这 种 情况 下 ， 我 们 通 第 会 优化 代理 损失 国 数 (surrogate loss 
function) 。 代 理 损 失 郴 数 作 为 原 目 标的 代理 ， 还 具备 一 些 优点 。 例 
如 ， 正 确 奖 别 的 负 对 数 似 然 通 第 用 作 0-1 损 失 的 符 代 。 负 对 数 似 然 允 许 
模型 估计 给 定 样本 的 类 别 的 条 件 概率 ， 如 果 访 模型 效果 好 ， 那 么 它 能 够 
fen HH FH EB POP RR Ze ATT DR I 
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然 答 代 函 效 时 ， 在 训练 集 上 的 0-1 损 失 运 到 0 之 后 ， 训 斌 集 上 的 0-1 损 失 还 
能 持续 下 降 很 长 一 段 时 间 。 这 征 因 为 即使 0-1 损 失 期 组 是 地 时 ， 我 们 还 
能 拉 开 不 同类 列 的 距离 以 改进 分 类 右 的 第 棒 性 ， 获 得 一 个 更 强壮 的 、 更 
值得 信赖 的 分 类 帮 ， 从 而 ， 相 对 于 人 简 早 地 最 小 化 训练 集 上 的 平均 0-1 损 
失 ， 它 能 够 从 训练 数据 中 抽取 更 多 信息 。 


一 般 的 优化 和 我 们 用 于 训练 算法 的 优化 有 一 个 重要 不 同 : 训练 算法 通 蜗 
不 会 停止 在 局 部 极 小 点 。 反 之 ， 机 器 学 习 通 销 优化 代理 损失 函数 ， 但 是 
在 基于 提前 终止 (第 7.8 市 ) 的 收敛 条 件 满足 时 停止 。 通 稼 ， 提 前 终止 
使 用 真实 潜在 损失 函数 ， 如 验证 集 上 的 0-1 损 失 ， 并 设计 为 在 过 拟 合 发 
生 之 前 终止 。 与 纯 优 化 不 同 的 是 ， 提 前 终止 时 代理 损失 函数 仍然 有 较 大 
的 导数 ， 而 纯 优 化 终止 时 导数 较 小 。 


8.1.3 ”批量 算法 和 小 批量 算法 


机 天 学 习 算法 和 一 般 优 化 算法 不 同 的 一 点 是 ， 机 硕 学 习 算法 的 目标 函数 
通常 可 以 分 解 为 训练 样本 上 的 求 和 。 机 器 学 习 中 的 优化 算法 在 计算 参数 
的 每 一 次 更 新 时 通 币 仅 使 用 整个 代价 函数 中 一 部 分 项 来 估计 代价 函数 的 
HEH. 


例如 ， 最 大 似 然 估计 问题 可 以 在 对 数 空间 中 分 解 成 各 个 样本 的 总 和 : 


m 
OML = arg max X log Pmodel(2™, y): 0) (8.4) 

0 TE: 

i=1 


最 大 化 这 个 总 和 等 价 于 最 大 化 训练 集 在 经 验 分 布 上 的 期 望 : 


J(@) a | PES log Pinal E, yY; 0) (8.5) 
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VoJ(@) = Bs poian o log Puana, yY; 0) (8.6) 


准确 计算 这 个 期 望 的 计算 代价 非 营 大 ， 因 为 我 们 需要 在 整个 数据 集 上 的 
每 个 样本 上 评估 模型 。 在 实践 中 ， 我 们 可 以 从 数据 集中 随机 采样 少量 的 
样本 ， 然 后 计算 这 些 样 本 上 的 平均 值 。 


回想 一 下 ，n 个 样本 均值 的 标准 差 ( 式 (5.46) ) 是 g / Vn ，， 其 中 o 是 
样本 值 真 实 的 标准 差 。 分 母 Vn 表明 使 用 更 多 样本 来 估计 梯度 的 方法 的 
回报 是 低 于 线性 的 。 比 较 两 个 假想 的 梯度 计算 ， 一 个 基于 100 个 样本 ， 
男 一 个 基于 10000 个 样本 。 后 者 需要 的 计算 量 是 前 者 的 100 倍 ， 却 只 降低 
了 10 倍 的 均值 标准 差 。 如 果 能 够 快速 地 计算 出 梯度 估计 值 ， 而 不 是 缓慢 
地 计算 准确 值 ， 那 么 大 多 数 优 化 算法 会 收敛 地 更 快 〈 就 总 的 计算 量 而 
言 ， 而 不 是 指 更 新 次 数 ) 。 


为 一 个 促使 我 们 从 小 数目 样本 中 获得 梯度 的 统计 估计 的 动机 是 训练 集 的 
几 余 。 在 最 坏 的 情况 下 ， 训 练 集中 所 有 的 m 个 样本 部 是 彼此 相同 的 找 

贝 。 基 于 采样 的 杨 大 估计 可 以 使 用 单个 样本 计算 出 正确 的 标 有 度 ， 而 比 原 
来 的 做 法 少 伦 了 m 售 时间。 实践 中 ， 我 们 不 太 可 能 真 的 过 到 这 种 最 坏 情 
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使 用 整个 训练 集 的 优化 算法 和 被 称 为 批量 (batch) 或 确定 性 
(deterministic) 梯度 算法 ， 因 为 它们 会 在 一 个 大 批量 中 同时 人 处理 所 有 
样本 。 这 个 术语 可 能 有 点 令 人 困惑 ， 因 为 这 个 词 “ 批 量 ? 也 经 和 和 补 用 来 摘 
述 小 批量 随机 梯度 下 降 算 法 中 用 到 的 小 批量 样本 。 通 稼 ， 术 语 “ 批 量 梯 
虐 下 降 ” 指 使 用 全 部 训练 集 ， 而 术语 “批量 ”单独 出 现时 指 一 组 样本 。 例 
如 ， 我 们 普通 使 用 术语 “批量 大 小 ”表示 小 批量 的 大 小 。 


每 次 只 使 用 单个 样本 的 优化 算法 有 时 被 称 为 随机  Cstochastic) 或 者 在 
线 (online) 算法 。 术 语 “ 在 线 ” 通 沿 是 指 从 连续 产生 样本 的 数据 流 中 抽 
取样 本 的 情况 ， 而 不 是 从 一 个 固定 大 小 的 训练 集中 通 历 多 次 采样 的 情 
部 。 


大 多 数 用 于 深度 学 习 的 算法 介 于 以 上 两 者 之 则 ， 使 用 一 个 以 上 而 叉 不 是 
全 部 的 训练 样本 。 传 统 上 ， 这 些 会 被 称 为 小 批量 Cminibatch) 或 小 批 
量 随 机 (minibatch stochastic) 方法 ， 现 在 退 弟 将 它们 人 简 蛙 地 称 为 随机 
(stochastic) 方法 。 


随机 方法 的 典型 示例 是 随机 梯度 下 降 ， 这 将 在 第 8.3.1 世 中 详细 摘 述 。 
小 批量 的 大 小 通常 由 以 下 几 个 因 系 决定 : 


e。 更 大 的 批量 会 计算 更 精确 的 梯度 估计 ， 但 是 回报 却 是 小 于 线性 的 。 

。 极 小 批量 通常 难以 充分 利用 多 核 染 构 。 这 促使 我 们 使 用 一 些 绝对 最 
小 批量 ， 低 于 这 个 值 的 小 批量 处 理 不 会 减少 计算 时 间 。 

如 果 批 量 处 理 中 的 所 有 样本 可 以 并 行 地 处 理 《〈 通 第 确 是 如 此 ) ， 那 
么 内 存 消 耗 和 批量 大 小 会 正比 。 对 于 很 多 人 硬件 设施 ， 这 和 是 批量 大 小 
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在 某 些 硬件 上 使 用 特定 大 小 的 数组 时 ， 运 行 时 间 会 更 少 。 尤 其 是 在 
使 用 GPU 时 ， 通 沿 使 用 2 的 暴 数 作为 批量 大 小 可 以 获得 更 少 的 运行 

时 间 。 一 役 ，2 的 系数 的 取信 范围 是 32~256，16 有 时 在 答 试 大 模型 

时 使 用 。 

可 能 是 由 于 小 批量 在 学 习 过 程 中 加 入 了 噪声 ， 它 们 会 有 一 些 正 则 化 
效果 (Wilson and Martinez, 2003) 。 泛 化 误差 通常 在 批量 大 小 为 1 
时 最 好 。 因 为 杨 上 度 估 计 的 局 方 天， 小 批量 训练 需要 较 小 的 学 习 率 以 
保持 稳定 性 。 因 为 降低 的 学 习 认 和 消耗 更 多 步 又 来 裔 历 整 个 训练 集 


者 会 产生 更 多 的 步 又 ， 所 以 会 寻 致 总 的 运行 时 间 非 名 大 。 


不 同 的 算法 使 用 不 同 的 方法 从 小 批量 中 获取 不 同 的 信息 。 有 些 算 法 对 条 
样 误 过 比 其 他 算法 更 敏感 ， 这 通 利 有 了 两 个 可 能 原因 。 一 个 是 它们 使 用 了 
很 难 在 少量 样本 上 精确 估计 的 信息 ， 为 一 个 是 它们 以 放大 米 样 误 牵 的 方 
却 使 用 了 信息 。 仅 基于 梯度 g 的 更 新 方法 通 第 相对 管 殿 ， 并 能 使 用 较 小 
的 批量 获得 成 功 ， 如 100。 使 用 Hessian 矩 阵 A, EU Hg 更 新 的 二 
阶 方法 通常 需要 更 大 的 批量 ， 如 10000。 这 些 大 批量 需要 最 小 化 估计 H 
7g 的 波动 。 假 设 瑟 被 精确 估计 ， 但 是 有 病态 条 件数 。 乘 以 H BOE 
BWAZH FEN RA CX Pahl PE g Within) 。 即 使 H 被 
精确 估计 ，g 中 非常 小 的 变化 也 会 导致 更 新 值 H 4g 中 非常 大 的 变化 。 
当然 ， 我 们 通常 只 会 近似 地 估计 互 ， 因 此 相对 于 我 们 使 用 具有 较 差 条 
件 的 操作 去 估计 g ， 更 新 HH”?g 会 含有 更 多 的 误差。 


小 批量 是 随机 抽取 的 这 点 也 很 重要 。 从 一 组 样本 中 计算 出 梯度 期 望 的 无 
俩 售 计 要 求 这 些 样本 是 独立 的 。 我 们 也 希望 两 个 连续 的 必 度 估计 是 互相 
独立 的 ， 因 此 两 个 连续 的 小 批量 样本 也 应 该 是 彼此 独立 的 。 很 多 现实 的 
数据 集 目 然 排列 ， 从 而 使 得 连续 的 样本 之 间 具 有 高 度 相 头 性 。 例 如 ， 假 
设 我 们 有 一 个 很 长 的 血液 样本 测试 结 示 清单 。 清 早上 的 数据 有 可 能 是 这 
样 获取 的 ， 头 5 个 血液 样本 于 不 同时 间 段 取 目 第 一 个 病人 ， 接 下 来 3 个 血 
液 样本 取 自 第 二 个 病人 ， 再 随后 的 血液 样本 取 目 第 3 个 病人 ， 等 等 。 如 
朱 从 这 个 清单 上 顺序 抽取 样本 ， 那 么 我 们 的 每 个 小 批量 数据 的 偶 差 都 很 
大 ， 因 为 这 个 小 批量 很 可 能 只 代表 着 数 据 集 上 众多 愚者 中 的 东 一 个 曲 

者 。 在 这 种 数据 集中 的 顺序 有 很 大 影响 的 情况 下 ， 很 有 必要 在 抽取 小 批 
量 样本 前 打 乱 样本 顺序 。 对 于 非 钊 大 的 数据 集 ， 如 数据 中 心 售 有 儿 十 亿 
样本 的 数据 集 ， 我 们 每 次 构建 小 批量 样本 时 都 将 样本 完全 均匀 地 抽取 出 
来 是 不 太 现 实 的 。 笠 运 的 是 ， 实 践 中 通 利 将 样本 顺序 打 乱 一 次 ， 然 后 按 
照 这 个 顺序 存储 起 来 束 足 够 了 。 之 后 训练 模型 时 会 用 到 的 一 组 组 小 批量 
连续 样本 是 固定 的 ， 每 个 独立 的 模型 每 次 遇 历 训练 数据 时 都 会 重复 使 用 
这 个 顺序 。 然 而 ， 这 种 俩 离 真 实 随机 采样 的 方法 并 没有 很 严重 的 有 害 影 
啊 。 不 以 东 种 方式 打 乱 样本 顺序 才 会 极 大 地 降低 算法 的 性 能 。 


很 多 机 霹 学 习 上 的 优化 问题 都 可 以 分 解 成 并 行 地 计算 不 同样 本 上 单独 的 
更 新 。 换 言 之 ， 我 们 在 计算 小 批量 样本 X 上 最 小 化 J( 和 ) 的 更 新 时 ， 同 
时 可 以 计算 其 他 小 批量 样本 上 的 更 新 。 这 类 异步 并 行 分布 式 方法 将 在 第 
12.1.3 节 中 进一步 讨论 。 
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RSIS IRA CN (8.2) ) 的 梯度 。 很 多 小 批量 随机 梯度 下 降 
方法 的 实现 都 会 打 乱 数据 顺序 一 次 ， 然 后 多 次 遇 爵 数据 来 更 新 参 效 。 第 
一 雇 通 历时 ， 每 个 小 批 星 样本 都 用 来 计算 真实 沁 化 误 委 的 无 俩 估计 。 第 
二 雇 通 历时 ， 舍 计 将 会 是 有 俩 的， 因为 它 重 新 抽取 了 已 经 用 过 的 样本 ， 
而 不 是 从 和 原先 样本 相同 的 数据 生成 分 布 中 获取 新 的 无 偏 的 样本 。 


我 们 不 难 从 在 线 学 习 的 情况 中 看 出 随机 梯度 下 降 最 小 化 沁 化 误 兰 的 诛 
因 。 这 时 样本 或 者 小 批量 都 是 从 数据 沉 《stream) 中 抽取 出 来 的 。 换 言 
之 ， 学 习 矢 好 像 是 一 个 每 次 看 到 新 样本 的 人 ， 每 个 样本 〈 x uy) 都 来 目 
数据 生成 分 布 p uaa ( x ;y)， 而 个 十 使 用 大 小 固定 的 训练 集 。 这 种 情况 
下 ， 样 本 永远 不 会 重复 ; 每 次 更 新 的 样本 十 从 分 布 p qata 中 采样 获得 的 无 
EE o 


在 x Aye AN, DEW SOTERA DEE. FEM T, MR 
Æ (st (8.2) ) 可 以 表示 为 


J*(0) = Y J / paata (a, y)L(f (2; 8), y) (8.7) 
上 式 的 准确 梯度 为 
g = Vo J* (0) = X 》 Paatale.y)VoL(f(#: 0), y) (8.8) 


ER (8.5) 和 式 (8.6) 中 ， 我 们 已 经 在 对 数 似 然 中 看 到 了 相同 的 结 
果 ， 现 在 我 们 发 现 这 一 点 在 包括 似 然 的 其 他 函数 L 上 也 是 成 立 的 。 在 一 
些 关 于 p ga 和 的 温和 假设 下 ， 在 _x 和 y 是 连续 时 也 能 得 到 类 似 的 结 
果 . 


因此 ， 我 们 可 以 从 数据 生成 分 布 p data 抽取 小 批量 样本 
fo)... 2M) 以 及 对 应 的 目标 y © ， 然 后 计算 该 小 批量 上 损失 函 
数 关于 对 应 参数 的 梯度 


| 
a! to). OM) 4 @ T 
9 = a Ve 2 E0) y) (8.9) 
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当然 ， 这 个 解释 只 能 用 于 样本 没有 童 复 使 用 的 情况 。 然 而 ， 际 非 训 练 集 
特别 大 ， 通 钟 最 好 是 多 次 遇 历 训练 集 。 当 多 次 遇 历 数据 集 更 新 时 ， 只 有 
第 一 遇 满 足 泛 化 误差 柳 度 的 无 俩 估计 。 但 是 ， 额 外 的 遇 历 更 新 当然 会 由 
于 减 小 训练 误 关 而 得 到 足够 的 好 处 ， 以 抵消 其 市 来 的 训练 误 过 和 训 试 误 
开间 差距 的 增加 。 


随 看 数据 集 的 规模 迅速 增长 ， 超 越 了 计算 能 力 的 增 速 ， 机 颖 学 习 应 用 每 
个 样本 只 使 用 一 次 的 情况 变 得 越 来 越前 见 ， 甚 全 古 不 完整 地 使 用 训 纤 
集 。 在 使 用 一 个 非常 大 的 训练 集 时 ， 过 拟 合 不 再 是 问题 ， 而 欠 拟 合 和 计 
算 效 率 变 成 了 主要 的 顾虑 。 读 者 也 可 以 参考 Bottou and 
Bousquet (2008a) 中 天 于 训练 样本 数目 增长 时 ， 沁 化 误 产 上 计算 魂 颁 


影响 的 讨论 。 
8.2 ”神经 网 络 优化 中 的 挑战 


优化 通常 是 一 个 极其 困难 的 任务 。 传 统 的 机 器 学 习 会 小 心 设计 目标 函数 
和 约束 ， 以 确保 优化 问题 是 凸 的 ， 从 而 避免 一 般 优 化 问题 的 复杂 上 度 。 在 
训练 神经 网 络 时 ， 我 们 肯定 会 遇 到 一 般 的 非 凸 情况 。 即 使 是 凸 优化 ， 也 
并 非 没 有 任何 问题 。 在 这 一 节 中 ， 我 们 会 总 结 几 个 训练 深度 模型 时 会 涉 
及 的 主要 挑战 。 


8.2.1 病态 

在 优化 凸 函数 时 ， 会 遇 到 一 些 挑 战 。 这 其 中 最 突出 的 是 Hessian 算 阵 H 
的 病态 。 这 是 数值 优化 、 凸 优化 或 其 他 形式 的 优化 中 普 授 存在 的 问题 ， 
更 多 细节 请 回顾 第 4.3.1 诈 。 


病态 问题 一 般 被 认为 存在 于 神经 网 络 训练 过 程 中 。 病 态 体 现在 随机 梯度 
下 降 会 * 卡 ”在 东 些 情况 ， 此 时 即使 很 小 的 更 独步 长 也 会 增加 代价 函数 。 


PIRIN (4.9) ， 代 价 函 数 的 二 阶 秦 勒 级 数 展开 预测 梯度 下 降 中 的 
— Eg 会 增加 


|: Da 
5¢9 Hg ag” g (8.10) 


到 代价 中 。 “eg Hg 超过 cgT g 时 ， 梯 度 的 病态 会 成 


为 问题 。 判 断 病 态 是 人 否 不 利于 神经 网 络 训练 任务 ， 我 们 可 以 监测 平方 梯 
度 范 数 g1 g 和 g! Hg 。 在 很 多 情况 中 ， 柳 度 范 数 不 会 在 训练 过 程 
中 显著 缩小 ， 但 是 g Hg 的 增长 会 超过 一 个 数量 级 。 其 结果 是 尽管 梯 
度 很 强 ， 学 习 会 变 得 非常 缓慢 ， 因 为 学 习 率 必须 收缩 以 弥补 更 强 的 曲 
率 。 如 图 8.1 所 示 ， 成 功 训 练 的 神经 网 络 中 ,梯度 显 善 增加 。 
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图 8.1 标 度 下 降 通 常 不 会 到 达 任 何 类 型 的 临界 点 。 此 示例 中 ， 在 用 于 对 象 检 疯 的 卷 积 网 络 的 整 
个 训练 期 间 ， 桥 拔 范 数 持 续 增 加 。 = CAL) 各 个 标 度 计算 的 范 数 如 何 随时 间 分 布 的 获 点 图 。 为 了 
方便 作 图 ， 每 轮 仅 绘 制 一 个 梯度 范 数 。 我 们 将 所 有 梯度 范 数 的 移动 平均 绘制 为 实 曲 线 。 标 上 度 范 
数 明显 随时 间 增 加 ， 而 不 是 如 我 们 所 期 望 的 那样 随 训 练 过程 收 合 到 临界 点 而 减 小 。 ( 右 〉 尽 官 
梯度 递增 ， 训 练 过 程 却 相 当成 功 。 验 证 集 上 的 分 类 误差 可 以 降低 到 较 低 水 平 


尽 官 病态 还 存在 于 除了 神经 网 络 训练 的 其 他 情况 中 ， 有 些 适 用 于 其 他 和 情 
况 的 解决 病态 的 技术 并 不 适用 于 神经 网 络 。 例 如 ， 牛 顿 法 在 解决 之 有 病 
态 条 件 的 Hessian 窜 阵 的 凸 优化 问题 时 ， 是 一 个 非常 优秀 的 工具 ， 但 是 我 
们 将 会 在 以 下 小 节 中 说 明和 牛顿 法 运用 到 神经 网 络 时 需要 很 大 的 改动 。 


8.2.2 ”局 部 极 小 值 


四 优化 问题 的 一 个 突出 特 氮 是 其 可 以 徐 化 为 寻找 一 个 局 部 极 小 点 的 问 
题 。 任 何 一 个 局 部 极 小 点 都 是 全 局 了 最 小 点 。 有 些 吓 图 数 的 搬 部 是 一 个 平 
组 的 区 域 ， 而 不 是 单一 的 全 局 最 小 点 ， 但 该 平坦 区 域 中 的 任意 点 都 是 一 
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对 于 非 凸 函数 时 ， 如 神经 网 络 ， 有 可 能 会 存在 多 个 局 部 极 小 值 。 事 实 
上 上 上， 几乎 所 有 的 深度 模型 基本 上 都 会 有 非常 多 的 局 部 极 小 值 。 然 而 ， 我 
们 会 发 现 这 并 不 是 主要 问题 。 


由 于 模型 可 辨识 性 ”(model identifiability) 问题 ， 神 经 网 络 和 任意 具有 
多 个 等 效 参 数 化 洲 变量 的 模型 都 会 共有 多 个 局 部 极 小 值 。 如 采 一 个 足够 
大 的 训练 集 可 以 唯一 确定 一 组 模型 参数 ， 那 么 该 模型 被 称 为 可 辨认 的 。 
答 有 潜 变 量 的 模型 通常 是 不 可 辩 认 的 ， 因 为 通过 相互 交换 潜 变 量 我 们 能 
得 到 等 价 的 模型 。 例 如 ， 考 虑 神经 网 络 的 第 一 层 ， 我 们 可 以 交换 时 元 i 
和 单元 j 的 传 入 权重 同 量 、 传 出 权重 回 量 而 得 到 等 价 的 梗 型。 如果 神经 
网 络 有 mm 层 ， 每 层 有 n 个 单元 ， 那 么 会 有 nl! 开 种 排列 隐 世 单元 的 方式 。 这 
种 不 可 辨认 性 家 称 为 权重 空间 对 称 性 (weight space symmetry) 。 


除了 权重 空间 对 称 性 ， 很 多 神经 网 络 还 有 其 他 导致 不 可 辨认 的 原因 。 例 
如 ， 在 任意 整流 线性 网 络 或 者 maxout 网 络 中 ， 我 们 可 以 将 传 入 权重 和 偏 


Hd Kote, Ce BANED xt 倍 ， 而 你 持 模 型 等 价 。 这 童 味 看 ， 


CY 
如 末代 价 函 数 不 包 括 如 权重 衰减 这 种 直接 依赖 于 权重 而 非 模 型 输出 的 
项 ， 那 么 整流 线性 网 络 或 者 maxout 网 络 的 每 一 个 局 部 极 小 点 都 在 等 价 的 
局 部 极 小 值 的 (mxn) 维 双 曲 线 上 。 


这 些 模型 可 辨识 性 问题 意味 着， 神经 网 络 代价 函数 具有 非常 多 甚至 不 可 
数 无 限 多 的 局 部 极 小 值 。 然 而 ， 所 有 这 些 由 于 不 可 辨识 性 问题 而 产生 的 
局 部 极 小 值 都 有 相同 的 代价 函数 值 。 因 此 ， 这 些 局 部 极 小 值 并 非 是 非 凸 
所 市 来 的 问题 。 


如 采 局 部 极 小 值 相 比 全 局 最 小 点 拥有 很 大 的 代价 ， 局 部 极 小 值 会 市 来 很 
大 的 隐患 。 我 们 可 以 构建 没有 隐 世 单元 的 小 规模 神经 网 络 ， 其 局 部 极 小 
值 的 代价 比 全 局 最 小 点 的 代价 大 很 多 (Sontag and Sussman, 1989; 
Brady et al. , 1989; Gori and Tesi, 1992) 。 如 果 具 有 很 大 代价 的 局 部 
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对 于 实际 中 感 兴趣 的 网 络 ， 是 人 耕 存 在 大 量 代价 很 融 的 局 部 极 小 值 ， 优 化 
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大 多 数 从 业者 认为 局 部 极 小 值 是 困扰 神经 网 络 优化 的 常见 问题 。 如 今 ， 
情况 有 所 变化 。 这 个 问题 仍然 是 学 术 界 的 热点 问题 ， 但 是 学 者 们 现在 猜 
想 ， 对 于 足够 大 的 神经 网 络 而 言 ， 大 部 分 局 部 极 小 值 都 共有 很 小 的 代价 
图 数 ， 我 们 能 不 能 找到 真正 的 全 局 最 小 点 并 不 重要 ， 而 是 需要 在 参数 衬 
则 中 找到 一 个 代价 很 小 (但 不 是 最小) WR (Saxe et al. , 2013; 
Dauphin et al. , 2014; Goodfellow et al. , 2015; Choromanska et al. ， 
2014) . 
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励 从 业者 要 仔细 分 析 特 定 的 问题 。 一 种 能 够 排除 局 部 极 小 信和 古 主要 问题 
的 检 训 方法 是 画 出 稀 度 范 数 随 时 间 的 变化 。 如 末 柳 度 范 数 没 有 缩小 到 一 
个 微小 的 值 ， 那 么 该 问题 既 不 是 局 部 极 小 值 ， 也 不 是 其 他 形式 的 临界 
扩 。 在 高 维 空间 中 ， 很 难 明确 证 明 局 部 极 小 值 是 导致 问题 的 原因 。 放 多 
并 非 局 部 极 小 值 的 结构 也 具有 很 小 的 杨 拔 。 


8.2.3 ”局 原 、 加 点 和 其 他 平坦 区 域 


对 于 很 多 噩 维 非 凸 函 数 而 语 ， 局 部 极 小 值 〈( 以 及 极 大 值 〉 事 实 上 必 远 少 
FARE AS ALA: PAo HA MIRRE E A E aA ERRAR 
Mo MRAMA ENIR. ERA, Hessian keh HHA E PRF 
(Eo MET EREE X MAIRIE H EA I A CRA ERAN, I 
Zo DL TURP IE EY MAIRIE H EA RAA ERT. RATE AK 
BELA TAT R Ble NRR EAI JANIRA R EJE tE a AAE AART EK 
BOR TB EJNAR. B458 Aani. 


多 类 随机 函数 表现 出 以 下 性 质 : 低 维 空间 中 ， 局 部 极 小 值 很 普遍 。 在 更 
高 维 空间 中 ， 局 部 极 小 值 很 罕见 ， 而 散 点 则 很 常见 。 对 于 这 类 函数 
f: R° SR 而 言 鞍点 和 局 部 极 小 值 的 数目 比率 的 期 望 随 n 指 数 
级 增长 。 我 们 可 以 从 直 泊 上 理解 这 种 现象 一 一 Hessian 窜 阵 在 局 部 极 小 点 
hR AIER. MEZKA, Hessian pE M ARREA ERIA. 
想 一 下 ， 每 个 特征 值 的 正 负 号 由 抛 硬币 决定 。 在 一 维 情况 下 ， 很 容易 抛 
便 币 得 到 正面 朝 上 一 次 而 获取 局 部 极 小 点 。 在 n- 维 空间 中 ， 要 抛 皂 n 次 
硬币 都 正面 朝 上 的 难度 是 指数 级 的 。 具 体 可 以 参考 Dauphin et al 
(2014) ， 它 回顾 了 相关 的 理论 工作 。 





很 多 随机 函数 一 个 怀 人 性 质 是 ， 当 我 们 到 达 代 价 较 低 的 区 间 时 ，Hessian 
证 阵 的 特征 值 为 正 的 可 能 性 更 大 。 和 抛 硬币 类比 ， 这 意味 着 如 果 我 们 处 
于 低 代 价 的 临界 点 时 ， 抛 雾 硬币 正面 绷 上 nn 次 的 概率 更 大 。 这 也 意味 
着 ， 局 部 极 小 值 具 有 低 代 价 的 可 能 性 比 融 代价 要 大 得 多 。 具 有 各 代价 的 
临界 点 更 有 可 能 是 鞭 点 。 上 共有 极 融 代价 的 临界 点 束 很 可 能 是 局 部 极 大 值 
Ie 


以 上 现象 出 现在 许多 种 类 有 的 随机 函数 中 。 那 么 是 否 在 神经 网 络 中 也 有 发 
生 呢 ? Baldi and Hornik (1989) 从 理论 上 上 证明， 不具 非 线性 的 浅 层 自 编 
人 码 骨 《第 14 章 中 将 介绍 的 一 种 将 输出 训练 为 输入 找 贝 的 前 馈 网 络 ) 只 有 
全 局 极 小 值 和 园 点 ， 没 有 代价 比 全 局 极 小 值 更 大 的 局 部 极 小 值 。 他 们 还 
及 现 这 些 结果 能 够 扩展 到 不 有 具 非 线性 的 更 深 的 网 络 上 ， 不 过 没有 证 明 。 
这 类 网 络 的 输出 是 其 输入 的 线性 孙 数 ， 但 它们 仍然 有 助 于 分 析 非 线性 神 
经 网 络 村 型， 因为 它们 的 损失 函数 是 关于 参数 的 非 凸 函数 。 这 类 网 络 本 
质 上 是 多 个 矩阵 组 合 在 一 起 。Saxe et al. (2013) 精确 解析 了 这 类 网 络 
中 完整 的 学 习 动 态 ， 表 明 这 些 模型 的 学 习 能 够 捕 换 到 许多 在 训练 具有 非 
线性 激活 函数 的 深度 模型 时 观 穴 到 的 定性 特征 。Dauphin et al. (2014) 
通过 实验 表明 ， 真 实 的 神经 网 络 也 存在 包含 很 多 高 代价 鞍点 的 损 抢 
数 。Choromanska et al. (2014) 提供 了 额外 的 理论 论点 ， 表 明 夯 一 类 和 
神经 网 络 相关 的 高 维 随机 男 数 也 满足 这 种 情况 。 


驳 点 激增 对 于 训练 算法 来 说 有 哪些 影响 呢 ? 对 于 只 使 用 梯度 信息 的 一 阶 
优化 拭 法 而 言 ， 目 前 情况 还 不 清楚 。 革 点 附近 的 构 度 通常 会 非常 小 。 田 
一 方面 ， 实 验 中 梯度 下 降 似 乎 可 以 在 许多 情况 下 逃离 较 点 。Goodfellow 
et al. (2015) 可 视 化 了 最 新 神经 网 络 的 几 个 学 习 轨 迹 ， 图 8.2 给 了 一 个 
例子 。 这 些 可 视 化 显示 ， 在 突出 的 驶 点 附近 ， 代 价 函 数 都 是 平坦 的 ， 权 
重 都 为 零 。 但 是 他 们 也 展示 了 梯度 下 降 轨 迹 能 够 迅速 移出 该 区 间 。 
Goodfellow et al. (2015) 也 主张 ， 应 该 可 以 通过 分 析 来 表明 连续 时 间 
的 梯度 下 降 会 逃离 而 不 是 吸引 到 欧 点 ， 但 对 梯度 下 降 更 现实 的 使 用 场景 
来 说 ， 情 况 或 许 会 有 所 不 同 。 
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图 8.2 ”神经 网 络 代 价 函 数 的 可 视 化 。 这 些 可 视 化 对 应 用 于 真实 对 象 识 别 和 目 然 语言 处 理 任 务 的 
前 馈 神 经 网 络 、 卷 积 网 络 和 循环 网 络 而 言 是 类 似 的 。 令 人 惊讶 的 是 ， 这 些 可 视 化 通常 不 会 显示 
出 很 多 明显 的 障碍 。 大 约 2012 年 ， 在 随机 梯度 下 降 开 始 成 功 训练 非常 大 的 模型 之 前 ， 相 比 这 些 
投影 所 显示 的 神经 网 络 代 价 函 数 的 表面 通 钊 被 认 为 有 更 多 的 非 凸 结构 。 议 投影 所 显示 的 主要 障 
但 是 初始 参数 附近 的 高 代价 贺 点 ， 但 如 由 蓝 色 路 径 所 示 ，SGD 训 练 轨迹 能 轻易 地 逃脱 该 靶 点 。 
大 多 数 训练 时 间 花 费 在 横 穿 代价 函数 中 相对 平坦 的 峡谷 ， 可 能 由 于 梯度 中 的 高 噪声 ， 或 该 区 域 
中 Hessian 咎 阵 的 病态 条 件 ， 或 者 需要 经 过 间接 的 弧 路 人 径 绕 过 图 中 可 见 的 局“ 山 *。 图 经 
Goodfellow etal. (2015) 许可 改编 
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释 了 在 神经 网 络 训练 中 为 什么 二 阶 方法 无 法 成 功 取 代 梯 度 下 降 。 
Dauphin et al. (2014) 介绍 了 二 阶 优化 的 无 欧 牛 顿 法 (saddle-free 
Newton method) ， 并 表明 和 传统 算法 相 比 有 显著 改进 。 二 阶 方法 仍然 
难以 扩展 到 大 型 神经 网 络 ， 但 是 如 采 这 类 无 蒂 算 法 能 够 扩展 ， 还 是 很 有 
AEK. 


BR ST MELA, DIERRE NEA. BIEN OCC Fa BE 
BMRA ALE, IRE ERA BOM PIKE, BRS RABAR 
牛顿 法 。 和 极 小 值 一 样 ， 许 多 种 类 的 随机 函数 的 极 大 值 在 高 维 空间 中 也 
He tH LAH o 


也 可 能 存在 恒 值 的 、 千 且 平 坦 的 区 域 。 在 这 些 区 域 ， 梯 上 度 和 Hessian 算 阵 
都 是 零 。 这 种 退化 的 情形 是 所 有 数值 优化 算法 的 主要 问题 。 在 凸 问 题 
中 ， 一 个 客 而 平坦 的 区 间 肯 定 包 含 全 局 极 小 值 ， 但 是 对 于 一 般 的 优化 问 








题 而 言 ， 这 样 的 区 域 可 能 会 对 应 着 目标 函数 中 一 个 较 高 的 值 。 
8.2.4 axle A BS ERE 
SFL I HS TEE PERK Xiah, EB. Pia. X 


ye FLAKY SE TE BURR AK REE ZA PIT, BAPE 
EI RIRKA ERANS, WASTER NAS EAM o 


J(w,b) 





b 


图 8.3 ”高 度 非 线 性 的 深度 神经 网 络 或 循环 神经 网 络 的 目标 水 数 通 当 包含 由 几 个 参数 连 来 而 导致 
的 参数 空间 中 尖锐 非 线 性 。 这 些 非 线 性 在 菜 些 区 域 会 产生 非常 大 的 导数 。 当 参数 接近 这 样 的 晨 
与 区域 时 ， 梯 上 度 下 降 更 新 可 以 使 参数 弹射 得 非常 远 ， 可 能 会 使 大 量 已 完成 的 优化 工作 成 为 无 用 
功 。 图 经 Pascanu etal. (2013a) 许可 改编 


不 管 我 们 是 从 上 还 是 从 下 接近 基 上 峙 ， 人 情况 都 很 粳 糙 ， 但 壮 运 的 是 ， 我 们 
可 以 使 用 第 10.11.1 节 介绍 的 局 发 式 梯度 截断 (gradient clipping) 来 避免 
其 严重 的 后 果 。 其 基本 想法 涯 目 梯 度 并 没有 指明 最 佳 步 长 ， 只 说 明了 在 
无 限 小 区 域内 的 最 佳 方向 。 当 传统 的 梯度 下 降 算 法 提议 更 新 很 大 一 步 
时 ， 局 发 式 梯度 截断 会 干涉 来 减 小 步 长 ， 从 而 使 其 不 太 可 能 走出 梯度 近 
似 为 最 陡 下 降 方 同 的 巧 旦 区 域 。 巧 尾 结 构 在 循环 神经 网 络 的 代价 函数 中 
很 常见 ， 因 为 这 类 模型 会 涉及 多 个 因子 的 相 乘 ， 其 中 每 个 因子 对 应 一 个 
时 间 步 。 因 此 ， 长 期 时 间 序 列 会 产生 大 量 相 乘 。 


8.2.5 ”长 期 依赖 


当 计 算 图 变 得 极 深 时 ， 神 经 网 络 优化 算法 会 面临 的 万 一 个 难题 吏 生 长 期 
依赖 问题 一 一 由 于 变 深 的 结构 使 模型 背 失 了 学 习 到 先前 信息 的 能 力 ， 让 


优化 变 得 极其 困难 。 深 层 的 计算 图 人 不仅 存在 于 前 馈 网 络 ， 还 存在 于 之 后 
介绍 的 人 循环 网 络 中 在 第 10 半 中 插 述 ) 。 因 为 循环 网 络 要 在 很 长 时 间 序 
列 的 各 个 时 刻 重 复 应 用 相同 操作 来 构建 非常 深 的 计算 图 ， 并 且 模 型 参数 
共 圣 ， 这 使 问题 更 加 凸显 。 


例如 ， 假 设 某 个 计算 图 中 包含 一 条 反复 与 矩阵 W REE. WA 
后 ， 相 当 于 乘 以 W!。 假 设 W 有 特征 值 分 解 W = Vdiag( A) VT! - 
在 这 种 简单 的 情况 下 ， 很 容易 看 出 


Wt = ( Vdiag(A) VT+ = Vdiag(A)\ VT? (8.11) 


当 特 征 值 和 ; ATELIER EAT IMIS REE; ar) TIN We 
WR. PRR RS REE Ia] eh (vanishing and exploding gradient 
problem ) 是 指 该 计算 图 上 的 梯度 也 会 因为 diag (入 )" Ki REAR Th 
FEVER RAE TS BOTT ME DA Re BBB SF I A ET PIAL, TT 
FE PEKE SS BAG OI NATE © LAIA AY Te 18 RAI EH PE ae DY cask EZ 
构 便 是 梯度 爆炸 现象 的 一 个 例子 。 


此 处 描述 的 在 各 时 间 步 重复 与 W 相 乘 非常 类 似 于 寻求 矩阵 WON 
征 值 及 对 应 特征 同 量 的 依 方 法 (power method) 。 从 这 个 观点 来 看 ， 
y| wW’ ERSTE x 中 所 有 与 W 的 主 特征 同 量 正 交 的 成 分 。 


循环 网 络 在 各 时 间 步 上 使 用 相同 的 窍 隆 OW ， 而 前 馈 网 络 并 没有 。 所 以 
即使 使 用 非常 深层 的 前 人 馈 网 络 ， 也 能 很 大 程度 上 上 有效 地 避免 梯度 消失 与 
爆炸 问题 (Sussillo，2014) 。 


在 更 详细 地 摘 述 循环 网 络 之 后 ， 我 们 将 会 在 第 10.7 节 进一步 讨论 循环 网 
络 训练 中 的 挑战 。 


8.2.6” 非 精确 梯度 


大 多 数 优 化 算法 的 先决 条 件 虱 是 我 们 知道 精确 的 柳 度 或 是 Hessian 窍 阵 。 
在 实践 中 ， 通 币 这 些 量 会 有 咯 声 ， 甚 至 是 有 偶 的 估计。 儿 乎 每 一 个 深度 
学 习 算 法 都 需要 基于 采样 的 估计， 至 少 使 用 训练 样本 的 小 批量 来 计算 棉 
度 。 


在 其 他 情况 下 ， 我 们 硕 下 最 小 化 的 目标 函数 实际 上 十 难以 处 理 的 。 当 目 
标 函 数 不 可 解 时 ， 通 名 其 柳 上 度 也 是 难以 处 理 的 。 在 这 种 情况 下 ， 我 们 只 
能 近似 标 度 。 这 些 问题 主要 出 现在 本 书 第 3 部 分 更 局 级 的 模型 中 。 例 

5 P 比 散 度 是 用 来 近似 玻 尔 效 曼 机 中 难以 处 理 的 对 数 似 然 梯 度 的 一 种 


各 种 神经 网 络 优化 算法 的 设计 部 考虑 到 了 梯度 信人 计 的 缺陷 。 我 们 可 以 选 
择 比 真实 损失 函数 更 容易 估计 的 代理 损失 函数 来 避免 这 个 问题 。 


8.2.7 ”局 部 和 全 局 结构 间 的 弱 对 应 


迄今 为 止 ， 我 们 讨论 的 许多 问题 都 是 天 于 损失 函数 在 单个 点 的 性 质 
GJ 00) 是 当前 点 0 的 病态 条 件 ， 或 者 9 foe, KA 9 是 一 个 下 
取 方 同人 不 明显 的 散 上 后， 那么 会 很 难 更 新 当前 步 。 


如 来 该 廊 回 在 局 部 改进 很 大 ， 但 并 没有 指 问 代价 低 得 多 的 遂 远 区 域 ， 那 
么 我 们 有 可 能 在 单 点 处 殉 服 以 上 所 有 困难 ， 但 仍然 表现 不 佳 。 


Goodfellow et al. (2015) 认为 大 部 分 训练 的 运行 时 间 取 决 于 a 到达 解 决 
方案 的 轨迹 长 度 。 如 图 8.2 所 示 ， 学 习 轨 迹 将 花 综 大 量 的 时 间 探 寻 一 个 
Hal Se LL AZ a Pd AY Se ML o 
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在 。 例 如 ， 损 失 函 数 一 log p(y | £; 0) 可 以 没有 全 局 最 小 点 ， 而 是 
当 随 着 训练 模型 逐渐 稳定 后 ， 渐 近 地 收 钱 于 某 个 值 。 对 于 具有 离散 的 y 
和 和 softmax 分 布 p(y | x ) 的 分 类 右 而 言 ， 厂 模型 能 够 正确 分 类 训练 集 上 的 
每 个 样本 ， 则 人 负 对 数 似 然 可 以 无 限 趋 近 但 不 会 等 于 零 。 同 梓 地 ， 实 值 模 
型 p(y | x) = Ny: f(0),37-*) ”的 负 对 数 似 然 会 趋向 于 负 无 穷 
一 一 如 果 f( 6 ) 能 够 正确 预测 所 有 训练 集中 的 目标 y， 学 习 算 法 会 无 限制 
地 增加 B。 图 8.4 给 出 了 一 个 失败 的 例子 ， 即 使 没有 局 部 极 小 值 和 席 点 ， 
该 例 还 是 不 能 从 局 部 优化 中 找到 一 个 民 好 的 代价 函数 值 。 
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图 8.4 ”如 果 局 部 表面 没有 指 问 全 局 解 ， 基 于 局 部 下 坡 移 动 的 优化 可 能 就 会 失败 。 这 里 我 们 提供 
一 个 例子 ， 说 明 即 使 在 没有 园 扣 或 局 部 极 小 值 的 迟 况 下 ， 优 化 过 程 会 如 何 失 败 。 此 例 中 的 代价 
函数 仅 包 含 朝 问 低 值 而 不 是 极 小 值 的 浙 近 线 。 在 这 种 情况 下 ， 造 成 这 种 困难 的 主要 原因 是 初始 
化 在 “ 山 ” 的 错误 一 侧 ， 并 且 无 法 忆 历 。 在 融 维 空间 中 ， 学 习 算 法 通 第 可 以 环绕 过 这 样 的 融 山 ， 

但 是 相关 的 轨迹 可 能 会 很 长 ， 并 且 寻 致 过 长 的 训练 时 间 ， 如 图 8.2 所 示 


未 来 的 研究 需要 进一步 探索 影 啊 学 习 轨 迹 长 有 度 和 更 好 地 表征 训练 过 程 的 
ZK o 
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梯度 下 降 和 基本 上 所 有 的 可 以 有 效 训练 神经 网 络 的 学 习 算法 ， 都 是 基于 
局 部 较 小 更 新 。 之 前 的 小 节 主要 集中 于 为 何 这 些 局 部 范围 更 新 的 正确 方 
向 难以 计算 。 我 们 也 许 能 计算 目标 函数 的 一 些 性 质 ， 如 近似 的 有 偏 梯度 
或 正确 方向 估计 的 方差 。 在 这 些 情况 下 ， 难 以 确定 局 部 下 降 能 否定 义 通 
身 有 效 解 的 足够 短 的 路 径 ， 但 我 们 并 不 能 真 的 遵循 局 部 下 降 的 路 径 。 目 
标 函数 可 能 有 诸如 病态 条 件 或 不 连续 梯度 的 问题 ， 使 得 梯度 为 目标 函数 
提供 较 好 近似 的 区 间 非 常 小 。 在 这 些 情况 下 ， 步 长 为 ”的 局 部 下 降 可 
能 定义 了 到 达 解 的 合理 的 短路 经 ， 但 是 我 们 只 能 计算 步 长 为 9 < € 
的 局 部 下 降 方 向 。 在 这 些 情况 下 ， 局 部 下 降 或 许 能 定义 通 向 解 的 路 径 ， 

但 是 该 路 径 包含 很 多 次 更 新 ， 因 此 遵循 该 路 径 会 带 来 很 高 的 计算 代价 。 
有 时 ， 比 如 说 当 目 标 函数 有 一 个 宽 而 平 的 区 域 ， 或 是 我 们 试图 寻求 精确 
的 临界 点 (通常 来 说 后 一 种 情况 只 发 生 于 显 式 求解 临界 点 的 方法 ， 如 牛 
顿 法 ) 时 ， 局 部 信息 不 能 为 我 们 提供 任何 指导 。 在 这 些 情况 下 ， 局 部 下 
降 完 全 无 法 定义 通 向 解 的 路 径 。 在 其 他 情况 下 ， 局 部 移动 可 能 太 过 仿 








心 ， 随 看 下 坡 方 同 移动 ， 却 和 所 有 可 行 解 南 辐 北 辐 ， 如 图 8.4 所 示 ， 或 
者 是 用 舍 近 求 远 的 方法 来 求解 问题 ， 如 图 8.2 所 示 。 目 前 ， 我 们 还 不 了 
解 这 些 问题 中 的 哪 一 个 与 神经 网 络 优化 中 的 难 扣 最 相关 ， 这 十 研 究 领 域 
LI AGRA ZT TA] o 
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8.2.8 ”优化 的 理论 限制 


一 些 理论 结果 表明 ， 我 们 为 神经 网 络 设计 的 任何 优化 算法 都 有 性 能 限制 
(Blum and Rivest, 1992; Judd, 1989; Wolpert and MacReady, 
1997) 。 通 第 这 些 结 来 不 影响 神经 网 络 在 实践 中 的 应 用 。 


一 些 理论 结果 仅 适 用 于 神经 网 络 的 单元 输出 离散 值 的 情况 。 然 和 而， 大 多 
数 神 经 网 络 单 元 输出 光滑 的 连续 值 ， 使 得 局 部 搜索 求解 优化 可 行 。 一 些 
理论 结果 表明 ， 存 在 菜 类 问题 是 不 可 解 的 ， 但 很 难 判 断 一 个 特定 问题 是 
侍 属 于 该 类 。 其 他 结果 表明 ， 寻 找 给 定 规 模 的 网 络 的 一 个 可 行 解 是 很 困 
难 的 ， 但 在 实际 情况 中 ， 我 们 通过 设置 更 多 参数 ， 使 用 更 大 的 网 络 ， 能 
轻松 找到 可 接受 的 解 。 此 外 ， 在 神经 网 络 训练 中 ， 我 们 通常 不 关注 某 个 
函数 的 精确 极 小 点 ， 而 只 关注 将 其 值 下 降 到 足够 小 以 获得 一 个 展 好 的 泛 
化 误 关 。 对 优化 算法 是 人 否 能 完成 此 目标 进行 理论 分 析 是 非常 困难 的 。 因 
此 ， 研 究 优化 算法 更 现实 的 性 能 上 界 仍 然 是 学 术 界 的 一 个 重要 目标 。 


8.3 ”基本 算法 

之 前 我 们 已 经 介绍 了 梯度 下 降 (第 4.3 节 ) ， 即 沿 着 整个 训练 集 的 梯度 
方向 下 降 。 这 可 以 使 用 随机 梯度 下 降 很 大 程度 地 加 速 ， 沿 着 随机 挑选 的 
小 批量 数据 的 梯度 下 降 方向 ， 就 像 第 5.9 节 和 第 8.1.3 节 中 讨论 的 一 样 。 

8.3.1 BEDLI RE F% 


随机 标 度 下 降 (SGD)〉 太 其 变种 很 可 能 是 一 般 机 副 学 习 中 应 用 最 多 的 的 
优化 算法 ， 特 列 古 在 深度 学 习 中 。 如 这 8.1.3 市 中 所 讨论 的 ， 按 照 数据 生 
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算法 8.1 展 示 了 如 何 沿 着 这 个 梯度 的 估计 下 降 。 
算法 8.1 ”随机 梯度 下 降 (SGD) 在 第 k 个 训练 迭代 的 更 新 。 


Require: ”学习 率 CC k 
Require: ”初始 参数 0 
while 停止 准则 未 满足 do 


从 训练 集中 采 包 含 m 个 样本 {zw\1). i am) } 的 小 批量 ， 其 中 x 
人 对 应 目标 为 y0。 
计算 梯度 估计 : ð 一 十 二 Ve yd, L(f(e™; 0), y) 


应 用 更 新 : O — 0 一 ed 


end while 





SGD 算 法 中 的 一 个 关键 参数 是 学 习 率 。 之 前 ， 我 们 介绍 的 SGD 使 用 固定 
的 学 习 率 。 在 实践 中 ， 有 必要 随 着 时 间 的 推移 逐渐 降低 学 习 率 ， 因 此 我 
们 将 第 k 步 选 代 的 学 习 率 记 作 GE 有 - 


这 古 因为 SGD 中 梯度 估计 引入 的 噪声 源 “m 个 训练 样本 的 随机 采样 ) 并 
不 会 在 极 小 后 处 消失 。 相 比 之 下 ， 妆 我 们 使 用 批量 杨 度 下 降 到 达 极 小 扣 
上 时， 整个 代价 函数 的 真实 柳 度 会 变 得 很 小 ， 之 后 为 0 ， 因 此 批量 樟 度 下 
降 可 以 使 用 固定 的 学 习 率 。 你 证 SGD 收 公 的 一 个 充分 条 件 是 


F. g= bo (8.12) 
=i 


Ce < Be (8.13) 
Bi 
KRF, WREEF OJ KH IERIE: 
Ek = (1 ii a )€Q +E; (8.14) 
其 中 OY — E. EARE, REE 保持 常数 。 
T 


学 习 率 可 通过 试验 和 误差 来 选取 ， 通 常 最 好 的 选择 方法 是 监测 目标 函数 
值 随时 间 变 化 的 学 习 曲 线 。 与 其 说 是 科学 ， 这 更 像 是 一 门 艺术 ， 我 们 应 
该 谨慎 地 参考 关于 这 个 问题 的 大 部 分 指导 。 使 用 线性 策略 时 ， 需 要 选择 
的 参数 为 GO 、、€ 二 ”和 t。 通 常 [ 被 设 为 需要 反复 遍历 训练 集 几 百 次 
KER. BE — 应 设 为 大 约 E() 的 1%。 主 要 问题 是 如 何 设置 E() 
， 若 E() 大大， 学 习 曲 线 将 会 剧烈 振荡 ， 代 价 函数 值 通常 会 明显 增加 。 
温和 的 振荡 是 良好 的 ， 容 易 在 训练 随机 代价 函数 〈 例 如 使 用 Dropout 的 

代价 函数 ) 时 出 现 。 如 果 学 习 率 太 小 ， 那 么 学 习 过 程 会 很 缓慢 。 如 果 禄 
学 习 率 太 低 ， 那 么 学 习 可 能 会 卡 在 一 个 相当 高 的 代价 值 。 通 常 ， 就 总 
训练 时 间 和 最 终 代价 值 而 言 ， 最 优 初始 学 习 率 的 效果 会 好 于 大 约 闪 代 

100 次 后 最 佳 的 效果 。 因 此 ， 通 党 最 好 是 检测 最 早 的 几 轮 迭 代 ， 选 择 一 
个 比 在 效果 上 表现 最 全 的 学 习 率 更 大 的 学 习 率 ， 但 又 不 能 太 大 导致 严重 
VEG. 


SGD 及 相关 的 小 批量 亦 或 更 广义 的 基于 梯度 优化 的 在 线 学 习 算 法 ， 一 个 
重要 的 性 质 是 每 一 步 更 新 的 计算 时 间 不 依赖 训练 样本 数目 的 多 算 。 即 使 
训练 样本 数目 非常 大 时 ， 它 们 也 能 收敛 。 对 于 四 够 大 的 数据 集 ，SGD 可 
能 会 在 处 理 整 个 训练 集 之 前 就 收敛 到 最 终 测 试 集 误 有 天 的 某 个 国定 容 产 范 
围 内 。 


研究 优化 算法 的 收敛 率 ， 一 般 会 衡量 额外 误 堪 Cexcess error ) 
J(@)— ming J(@) ， 即 当前 代价 函数 超出 最 低 可 能 代价 的 量 。 


SORIA TAMER, RENUAR (—-). te 


上 情况 下 是 (人 - ) o 除非 假定 额外 的 条 件 ， 否 则 这 些 界限 不 能 进 一 


步 改进 。 批 量 梯度 下 降 在 理论 上 比 随机 梯度 下 降 有 更 好 的 收敛 率 。 然 
而 ，Crameér-Rao 界 限 (Cramér, 1946; Rao, 1945) 指出 ， 泛 化 误差 的 


下 降 速度 不 会 快 于 (人 - ) ) o Bottou and Bousquet (2008b) 因此 认 


为 对 于 机 器 学 习 任务 ， 不 人 得 探 寻 收 合 快 于 (+ ) ) 的 优化 算法 


一 一 更 快 的 收敛 可 能 对 应 着 过 拟 合 。 此 外 ， 渐 近 分 析 掩 盖 了 随机 梯度 下 
降 在 少量 更 新 步 之 后 的 很 多 优点 。 对 于 大 数据 集 ，SGD 只 需 非 铝 少量 样 
本 计算 标 度 从 而 实现 初始 快速 更 新 ， 远 远 超 过 了 其 绥 慢 的 渐 近 收敛 。 本 
草 剩 余部 分 介绍 的 大 多 数 算法 在 实践 中 都 受益 本 这 种 性 质 ， 但 是 损失 了 


KARO ( 二 ) ) 的 源 近 分 析 。 我 们 也 可 以 在 学 习 过 程 中 乏 渐 增 大 小 
批量 的 大 小 ， 以 此 权衡 批量 梯度 下 降 和 随机 梯度 下 降 两 者 的 优点 。 


了 解 SGD 更 多 的 信息 ， 请 查看 Bottou (1998) 。 
8.3.2 ”动量 


虽然 随机 梯度 下 降 仍 然 是 非常 受 欢 迎 的 优化 方法 ， 但 其 学 习 过 程 有 时 会 
很 慢 。 动 量 方法 (Polyak, 1964) BEM, Re EAD HS 
{ERB RE, Be TRS RE. SERIE eS ZAP TS ALR 
MN MOLY, FF AAA a. HEB UAB.SAT A. 


从 形式 上 看 ， 动 量 算法 引入 了 变量 v 充当 速度 角色 一 一 它 代 表 参 数 在 参 
数 空间 移动 的 方 和 同和 速率 。 速 度 和 被 设 为 负 梯 上 度 的 指数 衰减 平均 。 名 称 动 
= (momentum) 来 目 物理 类 比 ， 根 据 牛 顿 运动 定律 ， 负 梯度 是 移动 参 
数 空 间 中 粒子 的 力 。 动 量 在 物理 学 上 和 定义 为 质量 乘 以 速度 。 在 动量 学 习 
算法 中 ， 我 们 假设 是 单位 质量 ， 因 此 速度 同 量 v 也 可 以 看 作 粒 子 的 动 
量 。 超 参数 wxE L0, 1) 决定 了 之 前 樟 度 的 页 献 坦 减 得 有 多 快 。 更 新 规 
则 如 下 : 


v —av —€Vo (3 > Ate”), yo) (8.15) 
0 —0+v (8.16) 


速度 v 累积 了 梯度 元 素 Vg (+ 0", Lif (a: 8), y™)) 。 相 对 于 ， 


€ 越 大 ， 之 前 梯度 对 现在 方 癌 的 影响 也 越 大 。 市 动量 的 SGD 算 法 如 算 
法 8.2 上 所 示 。 
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图 8.5 ”动量 的 主要 目的 是 解决 两 个 问题 : Hessian 和 矩阵 的 病态 条 件 和 随机 梯度 的 方差 。 我 们 通过 
此 图 说 明 动 量 如 何 殉 服 这 两 个 问题 的 第 一 个 。 等 局 线 搬 绘 了 一 个 二 次 损失 函数 (具有 病态 条 件 
的 Hessian 窍 隆 )。 模 跨 轮廓 的 红色 路 径 表 示 动 量 学 习 规 则 所 遵循 的 路 任 ， 它 使 该 函数 最 小 化 。 
在 该 路 任 的 每 个 步 又 男 一 个 入 头 ， 表 示 标 度 下 降 将 在 该 点 来 取 的 步 台 。 可 以 看 到 ， 一 个 病态 条 
件 的 二 次 目标 函数 看 起 来 像 一 个 长 而 年 的 山谷 或 具有 陡峭 边 的 峡谷 。 动 量 正 硝 地 纵 癌 罕 过 忌 

谷 ， 而 普通 的 杨 度 步 又 则 会 浪 颖 时 间 在 峡谷 的 罕 轴 上 来 回 移 动 。 比 较 图 4.6， 它 也 显示 了 没有 动 
量 的 梯度 下 降 的 行为 














算法 8.2 ”使 用 动量 的 随机 梯度 下 降 (SGD) 。 





Require: 学 习 率 万 ， 动 量 参 数 a 
Require: 初始 参数 0 ， 初 始 速度 v 


while 没有 达到 停止 准则 do 


NASER Lm EAL aD) a OO) 的 小 批量 ， 对 应 目标 
Ay 。 
计算 梯度 估计 : 
g nVo >), L(f(e™; 8), y™) 
计算 速度 更 新 : U — AV 一 EG 
应 用 更 新 : O — A+ y 


end while 


之 列 ， 步 长 只 是 梯度 范 数 乘 以 学 习 率 。 现 在 ， 步 长 取决 于 梯度 序 列 的 大 
小 和 排列 。 当 许多 连续 的 梯度 指 癌 相 同 的 方 同时 ， 步 长 最 大 。 如 来 动量 
算法 总 是 观测 到 梯度 9 » WAC ATT -g LAME UWI, ELBA Blin 
速度 ， 其 中 步 长 大 小 为 


c ||g|| (8.17) 


i — EF 
1 有 助 于 理解 。 例 如 ，a 二 0.9 对 应 看 最 


因此 将 动量 的 超 参数 视 为 - 

— Q 
大 速度 10 倍 于 梯度 下 降 算 法 。 
在 实践 中 ，o 的 一 般 取 值 为 0.5、0.9 和 0.99。 和 学 习 率 一 样 ，a 也 会 随 着 
时 间 不 汤 调 整 。 一 般 初 始 值 是 一 个 较 小 的 值 ， 随 后 会 慢 慢 变 大 。 随 着 时 
间 推 移 调 整 a 没 有 收缩 万 重要 。 
我 们 可 以 将 动量 算法 视 为 模拟 连续 时 间 下 和 牛顿 动力 学 下 的 粒子 。 这 种 物 
理 类 比 有 助 于 直觉 上 理解 动量 和 梯度 下 降 算 法 是 如 何 表 现 的 。 
粒子 在 任意 时 间 点 的 位 置 由 0 人 给 定 。 粒 子 会 受到 疤 力 fO ZIR 
致 粒子 加 速 : 


— O(t) (8.18) 


与 其 将 其 视 为 位 普 的 三 阶 微 分 方程 ， 我 们 不 如 引入 表示 粒子 在 时 间 t 处 
速度 的 变量 v(D， 将 牛顿 动力 学 重 写 为 一 阶 微分 方程 : 


v(t) = = 6(t) (8.19) 
f(t) = < v(t) (8.20) 


HIE, E EYAL Ti IL EL RU HE LO TT AE OOD TT FE — A 
简单 数 人 方法 是 欧 拉 方法 ， 通 过 在 每 个 梯度 方 同 上 小 且 有 限 的 步 来 简单 
模拟 该 等 陈 定 义 的 动力 学 。 


这 解释 了 动量 更 新 的 基本 形式 ， 但 具体 什么 是 力 呢 ? 力 正比 于 代价 函数 
的 负 梯 度 一 Vg.J(@) 。 该 力 推动 粒子 沿 着 代价 函数 表面 下 坡 的 方向 移 
动 。 梯 度 下 降 算法 基于 每 个 梯度 简单 地 更 新 一 步 ， 而 使 用 动量 算法 的 牛 
顿 方案 则 使 用 该 力 改变 粒子 的 速度 。 我 们 可 以 将 粒子 视 作 在 冰 面 上 滑行 
的 冰球 。 每 当 它 沿 着 表面 最 陡 的 部 分 下 降 时 ， 它 会 累积 继续 在 该 方向 上 
滑行 的 速度 ， 直 到 其 开始 向 上 滑动 为 止 。 


为 一 个 力也 是 必要 的 。 如 末代 价 函 数 的 杨 度 是 唯一 的 力 ， 那 么 粒子 可 能 
永远 不 会 停 下 来 。 想 象 一 下 ， 假 设 理想 情况 下 冰 面 没有 摩擦 ， 一 个 冰球 
从 山谷 的 一 哨 下 请 ， 上 升 到 夯 一 顺 ， 水 远 来 回 振 沪 。 要 解雇 这 个 问题 ， 
我 们 添加 男 一 个 正比 于 - v (的 力 。 在 物理 术语 中 ， 此 力 对 应 于 秋 性 阻 
力 ， 吏 像 粒 子 必 须 通 过 一 个 抵抗 介质 ， 如 糖浆 。 这 会 导致 粒子 随 看 时 间 
推移 逐渐 失去 能 量 ， 最 终 收敛 到 局 部 极 小 后 。 


为 什么 要 特别 使 用 -vv OMREZJE? WORAN- v (0) 在 数学 上 
的 便利 一 一 速度 的 整数 颇 很 容易 处 理 。 人 然而， 其 他 物理 系统 具有 基于 速 
度 的 其 他 整数 蝴 的 其 他 类 型 的 阻力 。 例 如 ， 颗 粒 通过 空气 时 会 受到 正比 
于 速度 平方 的 清流 阻力 ， 而 壬 粒 治 大 地 面 移动 时 会 党 到 恒定 大 小 的 摩 控 
力 。 这 些 选 择 都 不 合适 。 满 法 阻力 正比 于 速度 的 平方 ， 在 速度 很 小 时 会 
很 弱 ， 不 够 唱 到 使 粒子 集 下 来 。 非 等 值 初始 速度 的 粒 了 于 仅 受 到 泊 法 阻 
力 ， 会 从 初始 位 置 永远 地 移动 下 去 ， 和 初始 位 置 的 距离 大 概 正比 于 
OUdogb， 因 此 我 们 必须 使 用 速度 较 低 需 次 的 力 。 如 宋 民 次 为 索 ， 相 当 于 


干 雄 探 ， 那 么 力 太 强 了 。 当 代价 函数 的 标 度 表示 的 力 很 小 但 非 零 时 ， 由 
于 摩 探寻 致 的 恒 力 会 使 得 粒子 在 达到 局 部 极 小 点 之 前 驶 保 下 来 。 秋 性 阻 
力 避 免 了 这 两 个 问题 一 一 它 足 够 弱 ， 可 以 使 密度 引起 的 运动 二 到 达到 基 
小 ， 但 又 足够 蝇 ， 便 得 坡度 不 够 时 可 以 阻止 运动 。 





8.3.3 ”Nesterov 动 量 


受 Nesterov 加 速 梯度 算法 (Nesterov, 1983, 2004) AR, Sutskever et 
al. (2013) 提出 了 动量 算法 的 一 个 变种 。 这 种 情况 的 更 新 规则 如 下 : 


1 m l 
ý — QÜ — EVg = 2, (f (x O+av),y ) ( ) 
6—O+v (8.22) 


其 中 参数 ac 和 发 皖 了 和 标准 动量 方法 中 类 似 的 作用 。Nesterov 动 量 和 标准 
动量 之 间 的 区 别 体 现在 梯度 计算 上 。Nesterov 动 量 中 ， 梯 度 计 算 在 施加 
当前 速度 之 后 。 因 此 ，Nesterov 动 量 可 以 解释 为 往 标 准 动 量 方法 中 这 加 
了 一 个 校正 因子 。 完 整 的 Nesterov 动 量 算 法 如 算法 8.3 所 示 。 





算法 8.3 ”使 用 Nesterov 动 量 的 随机 梯度 下 降 (SGD) 。 





Require: 学 习 率 万 ， 动 量 参 数 a 
Require: ”初始 参数 0 ， 初 始 速 度 v 
while 没有 达到 集 止 准则 do 


WMS PRES MTEL OO)... a OY 的 小 批量 ， 对 应 目 
bp Ay © 。 


DY FA Ig EY BF: 0 — @ + QU 


计算 梯度 (在 临时 点 ) : g — V9 Xi LEE: 0), yO) 


计算 速度 更 新 : U — QV 一 EG 
应 用 更 新 : O — 0 十 了 


end while 


在 凸 批量 樟 度 的 情况 下 ，Nesterov 动 量 将 额外 误 乔 收敛 率 从 O(LUI Oke 
ja) 改进 到 O(1K “< )， 如 Nesterov (1983) 所 示 。 可 惜 ， 在 随机 梯度 的 情 
W F, Nesterov RIA MWAN E 
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困难 的 问题 ， 以 至 于 大 多 数 算法 都 很 大 程度 地 受到 初始 化 选择 的 影 啊 。 
倪 始 所 能 够 决定 算法 是 否 收 全 ， 有 些 初 始 反 十 分 不 稳定 ， 使 得 该 算法 会 
生 遇 数值 困难 ， 并 完全 失败 。 当 学 习 收 敛 时 ， 初 始点 可 以 次 定 学 习 收 敛 
得 多 其 ， 以 及 是 否 收敛 到 一 个 代价 遍 或 低 的 氮 。 此 外， 于 不 多 代价 的 点 
可 以 上 只 有 区 列 极 大 的 泛 化 误 基 ， 初 始点 也 可 以 影响 沁 化 。 


现代 的 初始 化 策略 古刹 单 的 、 局 友 式 的 。 设 定 改进 的 初始 化 东 略 是 一 项 
内 难 的 任务 ， 因 为 神经 网 络 优化 全 今 还 未 被 很 好 地 理解 。 大 多 数 初始 化 
束 略 基于 在 神经 网 络 人 初始 化 时 实现 一 些 很 好 的 性 质 。 然 而 ， 我 们 并 没有 
很 好 地 理解 这 些 性 质 中 的 哪些 会 在 学 习 开 始 进 行 后 的 哪些 情况 下 得 以 你 
持 。 进 一 步 的 难点 是 ， 有 些 初 始点 从 优化 的 观点 看 或 许 是 有 利 的 ， 但 是 
从 泛 化 的 观点 看 是 不 利 的 。 我 们 对 于 初始 点 如 何 影 响 沁 化 的 理解 是 相当 
原始 的 ， 几 乎 没有 提供 如 何 选择 初始 点 的 任何 指导 。 


也 许 完 全 确 知 的 唯一 特性 是 初始 参数 需要 在 不 同 单 元 间 "“ 破 坏 对 称 性 ”。 
如 条 具有 相同 激活 函数 的 两 个 隐藏 单元 连接 到 相同 的 输入 ， 那 么 这 些 单 
元 必须 共有 不 同 的 初始 参数 。 如 果 它 们 上 其 有 相同 的 初始 参数 ， 然 后 应 用 
到 确定 性 损失 和 模型 的 确定 性 学习 算法 将 一 耳 以 相同 的 方式 更 新 这 两 个 


单元 。 即 使 模型 或 训练 算法 能 够 使 用 随机 性 为 不 同 的 单元 计算 不 同 的 更 
新 《例如 使 用 Dropout 的 训练 ) ， 通 稼 来 说 ， 最 好 还 是 初始 化 每 个 单元 
使 其 和 其 他 单元 计算 不 同 的 函数 。 这 或 许 有 助 于 确保 没有 输入 模式 丢失 
在 前 问 传 播 的 零 空 间 中 ， 没 有 梯度 模式 丢失 在 反 同 传播 的 零 空 间 中 。 每 
个 单元 计算 不 同 函 数 的 目标 促使 了 参数 的 随机 初始 化 。 我 们 可 以 明确 地 
搜索 一 大 组 役 此 互 不 相同 的 基 函 数 ， 但 这 经 钊 会 导致 明 最 的 计算 代价 。 
人 例如， 如果 我 们 有 和 输出 一 样 多 的 输入 ， 可 以 使 用 Gram-Schmidt 正 交 化 
于 初始 的 权重 矩阵， 保证 每 个 时 元 计算 彼此 非常 不 同 的 函数 。 在 高 维 空 
同上 使 用 高 烽 分 布 来 随机 和 初始化， 计算 代价 小 并 且 不 太 可 能 分 配音 元 计 
TAK EH TE] HY RKI ŽI o 
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人 然而， 初始 分 布 的 大 小 确实 对 优化 过 程 的 结 末 和 网 络 沁 化 能 力 都 有 很 大 
的 影响 。 


更 大 的 初始 权重 具有 更 强 的 破坏 对 称 性 的 作用 ， 有 助 于 避免 见 余 的 单 

元 。 它 们 也 有 助 于 避免 在 每 层 线 性 成 分 的 前 同 或 反问 传播 中 于 失信 号 

一 一 窍 阵 中 更 大 的 人 在 窍 阵 乘 法 中 有 更 大 的 和 输出。 如果 初始 权重 太 大 ， 

那么 会 在 前 问 传 播 或 反问 传播 中 产生 焊 炸 的 值 。 在 循环 网 络 中 ， 很 大 的 
权重 也 可 能 导致 混沌 Cchaos) (对 于 输入 中 很 小 的 扰动 非常 敏 感 ， 导 
致 确定 性 前 加 传播 过 程 表现 随机 〉。 在 一 定 程度 上 ， 梯 度 爆 炸 问 题 可 以 
HELD AS SE SIT RAE CATT BBE Ree Be ZH AC EY BEL) BRK 
的 权重 也 会 产生 使 得 激活 函数 饱和 的 值 ， 导 致 饱和 单元 的 梯度 完全 丢 

Ro Meee PAA ee SME ERA oa KZ 


关于 如 何 初 始 化 网 络 ， 正 则 化 和 优化 有 看 非常 不 同 的 观点 。 优 化 观点 建 
议 权 重 应 该 足够 大 以 成 功 传 播 信 息 ， 但 是 正则 化 希望 其 小 一 扣 。 诺 如 随 
机 梯度 下 降 这 类 对 权重 较 小 的 增 量 更 新 ， 址 于 俘 止 在 更 苹 近 初始 参数 的 
区 域 〈 不 官 和 是 由 于 卡 在 低 梯度 的 区 域 ， 还 是 由 于 触及 了 基于 过 拟 合 的 提 
前 终止 准则 ) 的 优化 算法 倾 问 于 最 终 参 数 应 接近 于 初始 参数 。 回 顾 第 
7.8 节 ， 在 东 些 模型 上 ， 枚 前 终止 的 梯度 下 降 等 价 于 权重 桶 减 。 在 一 般 


情况 下 ， 提 前 终止 的 梯度 下 降 和 权重 衰减 不 同 ， 但 是 提供 了 一 个 宽松 的 
类 比 去 考虑 初始 化 的 影响 。 我 们 可 以 将 初始 化 参数 9 为 060 类 比 于 强 置 
均值 为 0v 的 高 斯 先 验 p( 0 )。 从 这 个 角 虚 来 看 ， 选 择 0 接近 0 是 有 道理 
的 。 这 个 先 验 表 明 ， 单 元 间 彼 此 互 不 交互 比 交 互 更 有 可 能 。 只 有 在 目标 
图 数 的 似 然 项 表达 出 对 交互 很 强 的 往 好 时 ， 单 元 才 会 交互 。 此 外 ， 如 果 
我 们 初始 化 6 ， 为 很 大 的 值 ， 那 么 我 们 的 先 验 指 定 了 哪些 单元 应 互相 区 
互 ， 以 及 它们 应 如 何 交 互 。 


有 些 启发 式 方法 可 用 于 选择 权重 的 初始 大 小 。 一 种 初始 化 m 个 输入 和 n 
输出 的 全 连接 层 she 的 局 发 式 方法 是 从 分 布 

U( a Jm’ Vm ) 中 采样 权重 ， 而 Glorot and Bengio (2010) 建 
议 使 用 标准 初始 化 (normalized initialization ) 


. 6 6 : 
wa~ Ay) (8.23) 
mtn mtn 
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据 此 推导 得 出 。 现 实 的 神经 网 络 显 然 会 违反 这 个 假设 ， 但 很 多 设计 于 线 
性 柑 型 的 条 上 略 在 其 非 线 性 对 应 中 的 效 末 也 不 错 。 


Saxe et al. (2013) 推荐 初始 化 为 随机 正 交 算 阵 ， 和 仔细 挑选 负 贡 每 一 层 
非 线 性 缩放 或 增益 Cgain) 因子 g。 他 们 得 到 了 用 于 不 同类 型 的 非 线 性 
激活 函数 的 特定 缩放 因 了 于 。 这 种 初始 化 方案 也 是 局 发 于 不 含 非 线性 的 拢 
阵 相 乘 序列 的 次 度 网 络 。 在 该 模型 下 ， 这 个 初始 化 方案 保证 了 达到 收 伍 
所 需 的 训练 迭代 总 数 独立 于 深度 。 


增加 缩放 因子 g 将 网 络 推 同 网 络 前 同 传 播 时 激活 范 数 增加 ， 反 辐 传 播 时 
梯度 范 数 增加 的 区 域 。Sussillo (2014) 表明 ， 正 确 设 置 缩放 因子 足以 训 
练 深 达 1000 层 的 网 络 ， 而 不 需要 使 用 正 交 初始 化 。 这 种 方法 的 一 个 重要 
观点 是 ， 在 前 饥 网 络 中 ， 激 活 和 梯度 会 在 每 一 步 前 回 传 播 或 反 同 传播 中 
增加 或 缩小 ， 遵 循 随 机 游 走 行为 。 这 是 因为 前 馈 网 络 在 每 一 层 使 用 了 不 
同 的 权重 矩阵 。 如 果 该 随机 游 走 调整 到 保持 范 数 ， 那 么 前 馈 网 络 能 够 很 
大 程度 地 避免 相同 权重 窍 阵 用 于 每 层 的 梯度 消失 与 爆炸 问题 ， 如 第 8.2.5 
HR. 
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优 值 大 致 接近 ， 但 并 不 完全 等 于 理论 预测 。 


比值 范围 准则 的 一 个 缺点 是 ， 设 置 所 有 的 初始 权重 具有 相同 的 标准 关 ， 
例如 一 一 ， 会 使 得 层 很 大 时 每 个 单一 权重 会 变 得 极其 小 。 
AAA The 


Martens (2010) 提出 了 一 种 被 称 为 稀 玻 初始 化 (sparse initialization) 
的 蔡 代 方案 ， 每 个 单元 初始 化 为 恰好 有 k 个 非 零 权重 。 这 个 想法 保持 设 
单元 输入 的 总 数量 独立 于 输入 数目 m， 而 不 使 单一 权重 元 系 的 大 小 随 m 
擅 小 。 稀 想念 始 化 有 助 于 实现 单元 之 间 在 初始 化 时 更 具 多 样 性 。 但 是 ， 
获得 较 大 取 值 的 权重 也 同时 被 加 了 很 强 的 先 验 。 因 为 梯度 下 降 需 要 很 长 
时 间 缩 小 “不 正确 ”的 大 值 ， 这 个 初始 化 方案 可 能 会 导 仅 和 攻 些 捍 元 出 问 

题 ， 例 如 maxout 蛙 元 有 有 几 个 过 小 磊 ， 互 相 之 间 必 须 仔细 调整 。 


如 果 计 算 资 源 人 允许 ， 将 每 层 权 和 草 的 初始 数值 沁 围 设 为 超 参 数 通 党 是 个 好 
主意 ， 使 用 第 11.4.2 节 介绍 的 超 参 数 搜索 算法 ， 如 随机 搜索 ， 挑 选 这 些 
数值 沁 围 。 是 否 选 择 使 用 密集 或 黎 足 初始 化 也 可 以 设 为 一 个 超 参 数 。 作 
为 蕉 代 ， 我 们 可 以 手动 搜索 最 优 初 始 学 围 。 一 个 好 的 挑选 初始 数值 疙 围 
的 经 验 法 则 是 观测 单个 小 批量 数据 上 的 激活 或 梯 肛 的 幅度 或 标准 牵 。 如 
条 权 重大 小， 那么 当 激 活 值 在 小 批量 上 前 同 传 播 于 网 络 时 ， 汝 活 值 的 幅 
上 度 会 缩小 。 通 过 重复 识别 具有 小 得 不 可 接受 的 激活 值 的 第 一 层 ， 并 提高 
其 权重 ， 最 终 有 可 能 得 到 一 个 初始 激活 全 部 合理 的 网 络 。 如 果 学 习 在 这 
点 上 仍然 很 悍 ， 观 测 梯 上 度 的 幅度 或 标准 甜 可 能 也 会 有 所 帮助 。 这 个 过 程 
原则 上 是 目 动 的 ， 且 通常 计算 量 低 于 基于 验证 集 误 天 的 超 参数 优化 ， 因 
为 它 是 基于 初始 檬 型 在 单 批 数据 上 的 行为 反馈 ， 而 不 是 在 验证 集 上 训练 
模型 的 有 反馈。 由 于 这 个 协议 很 长 时 间 都 被 局 发 式 使 用 ， 最 这 Mishkin and 
Matas (2015) 更 正式 地 研究 了 该 协议 。 


日前 为 止 ， 我 们 天 注 在 权 音 的 初始 化 上 。 羡 运 的 是 ， 其 他 参数 的 初始 化 
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情况 : 


e 如 果 仿 置 是 作为 输出 时 元 ， 那 么 初始 化 偏 置 以 获取 正确 的 输出 边 绿 
统计 通 第 是 有 利 的 。 要 做 到 这 一 点 ， 我 们 假设 初始 权重 足够 小 ， 议 
时 元 的 输出 仪 由 偏 置 决定 。 这 说 明 设 置 偏 置 为 应 用 于 训练 集 上 输出 
边缘 统计 的 激活 函数 的 进 。 人 例如， 如果 输出 是 类 上 的 分 布 ， 且 访 分 
布 是 高 上 度 偏 态 分 布 ， 第 i 江 的 边缘 概率 由 茶 个 同 量 c 的 第 i 个 元 系 给 
定 ， 那 么 我 们 可 以 通过 求解 方程 softmax( b )= c 来 设置 偏 置 向 量 b 
。 这 不 仪 适用 于 分 类 右 ， 也 适用 于 我 们 将 在 第 三 部 分 过 到 的 模型 ， 
例如 自 编 码 器 和 玻 尔 兹 受 机 。 这 些 模型 拥有 输出 类 似 于 输入 数据 x 
的 网 络 层 ， 非 常 有 助 于 初始 化 这 些 层 的 偏 置 以 匹配 x 上 的 边缘 分 
布 


有 时 ， 我 们 可 能 想 要 选择 偶 置 以 避免 初始 化 引起 太 大 饱和 。 例 如 ， 
我 们 可 能 会 将 ReLU 的 隐 闫 单元 设 为 0.1 而 非 0， 以 避免 ReLU 在 初始 
化 时 饱和 。 尽 管 这 种 方法 违 育 不 希望 伺 置 具有 很 强 输 入 的 权重 初始 
化 准则 。 例 如 ， 不 建议 使 用 随机 游 走 初始 化 (Sussillo，2014) . 
有 了 时， 一 个 单元 会 控制 其 他 单元 能 人 否 参 与 到 等 式 中 。 在 这 种 情况 
以 将 h 视 作 门 ， 以 决定 uhs1 还 是 uhx0。 在 这 种 情形 下 ， 我 们 希望 设 
置 偏 置 h， 使 得 在 初始 化 的 大 多 数 情况 下 hxs1。 人 奋 则 ，u 没 有 机 会 学 
习 。 例 如 ，Jozefowicz et al. (2015) 提议 设置 LSTM 模 型 遗 访 门 的 
偏 置 为 1， 如 第 10.10 节 所 述 。 


为 一 种 剃 见 类 型 的 参数 古方 和 天 或 精确 度 参数 。 例 如 ， 我 们 用 以 下 模型 进 
行 市 条 件 方才 估计 的 线性 回归 


ply | a) =N(y| w" ae +6,1/8) (8.24) 
SLB EH EA Be MY ET Ee Oe EBB 
Fy FT EAE A) UA BE PRES, w AmA N UARA E KR , 
ORI BOE Ws BW Aa EWA, FR TAS BI BO I PRE 
Fan LH I ZR Eo 


除了 这 些 初 始 化 模型 参数 的 简单 常数 或 随机 方法 ， 还 有 可 能 使 用 机 器 学 
习 初 始 化 模型 参数 。 在 本 书 第 3 部 分 讨论 的 一 个 常用 策略 是 使 用 相同 的 


输入 数据 集 ， 用 无 监督 模型 训练 出 来 的 参数 来 初始 化 监督 模型 。 我 们 也 
可 以 在 相关 问题 上 使 用 监督 训练 。 即 使 是 在 一 个 不 相关 的 任务 上 运行 监 
督 训练 ， 有 时 也 能 得 到 一 个 比 随机 初始 化 具有 更 快 收敛 率 的 初始 值 。 这 
些 初始 化 策略 有 些 能 够 得 到 更 快 的 收敛 率 和 更 好 的 泛 化 误差 ， 因 为 它们 
编码 了 模型 初始 参数 的 分 布 信息 。 其 他 策略 显然 效果 不 错 的 原因 主要 在 
于 它们 设置 参数 为 正确 的 数值 范围 ， 或 是 设置 不 同 单元 计算 互相 不 同 的 
函数 。 


8.5” 目 适应 学 习 深 算法 


俐 经 网 络 研究 员 早 束 意识 到 学 习 率 肯定 是 难以 设置 的 超 参数 之 一 ， 因 为 
它 对 模型 的 性 能 有 显 赦 的 影响 。 正 如 我 们 在 第 4.3 节 和 第 8.2 节 中 所 探讨 
的 ， 损 失 通 钊 高 度 敏 感 于 参数 空间 中 的 东 些 方向 ， 而 不 敏感 于 其 他 。 动 
量 算法 可 以 在 一 定 程 度 缓解 这 些 问 题 ， 但 这 样 做 的 代价 是 引入 了 万 一 个 
超 参 数 。 在 这 种 情况 下 ， 目 然 会 加 有 没有 其 他 方法 。 如 末 我 们 相信 方 同 
敏感 度 在 茶 种 程度 是 轴 对 齐 的 ， 那 么 每 个 参数 设置 不 同 的 学 习 率 ， 在 整 
个 学 习 过 程 中 目 动 适应 这 些 学 习 率 是 有 道理 的 。 


Delta-bar-delta 算法 (Jacobs, 1988) 是 一 个 早期 的 在 训练 时 适应 模型 
参数 各 目 学 习 率 的 局 发 式 方 法 。 访 方法 基于 一 个 很 简单 的 想法 ， 如 果 损 
失 对 于 菏 个 给 定 模 型 参数 的 偏 导 保持 相同 的 从 号 ， 那 么 学 习 深 应 该 增 
加 。 如 果 对 于 该 参数 的 偏 导 变化 了 和 从 配 ， 那 么 学 习 率 应 减 小 。 当 然 ， 这 
种 方法 只 能 应 用 于 全 批量 优化 中 。 


最 这， 所 出 了 一 些 增 量 (或 者 基于 小 批量 ) 的 算法 来 目 适应 模型 参数 的 
学 习 率 。 这 贡 将 简要 回顾 其 中 一 些 算 法 。 


8.5.1 AdaGrad 


AdaGrad 算 法 ， 如 算法 8.4 所 示 ， 独 立地 适应 所 有 模型 参数 的 学 习 率 ， 纵 
放 每 个 参数 反比 于 其 所 有 梯度 历史 平方 值 总 和 的 平方 根 (Duchi et al. , 
2011) 。 具 有 损失 最 大 偏 导 的 参数 相应 地 有 一 个 快速 下 降 的 学 习 深 ， 而 
具有 小 偏 导 的 参数 在 学 习 深 上 有 相对 较 小 的 下 降 。 净 效果 是 在 参数 空间 
中 更 为 平缓 的 倾 笠 方 回 会 取得 更 大 的 进步 。 


在 凸 优化 育 景 中 ，AdaGrad 算 法 具有 一 些 令 人 请 意 的 理论 性 质 。 然 而 ， 


AR EGA ARE, FIARE RANAR, MIR IP aR AR EA 
梯度 平方 会 导致 有 效 学 习 率 过 早 和 过 量 的 减 小 。AdaGrad 在 某 些 深度 学 
习 模 型 上 效果 不 错 ， 但 不 是 全 部 。 





算法 8.4 ”AdaGrad 算 法 。 

Require: 全 局 学 习 率 € 

Require: 初始 参数 0 

Require: 小 常数 65， 为 了 数值 稳定 大 约 设 为 10 一 
AUR i RE BARE se r =0 
while 没有 达到 俘 止 准则 do 


WME RAS HAL Da OO) 的 小 批量 ， 对 应 目 
标 为 y(i) 。 
计算 梯度 : g — 二 Ve 5); L(f (x00;0), y) 
累积 平方 梯度 : T — Tr 上 gg 
计算 更 新 : AO——-TeOg 〈 逐 元 素 地 应 用 除 和 求 平方 根 ) 
应 用 更 新 : @— 0 + A0 


end while 





8.5.2 RMSProp 


RMSProp ”算法 (Hinton, 2012) 修改 AdaGrad 以 在 非 凸 设 定 下 效果 更 
好 ， 改 变 标 度 积 囚 为 指数 加 权 的 移动 平均 。AdaGrad 骨 在 应 用 于 凸 问题 
时 快速 收 伍 。 当 应 用 于 非 凸 函数 训练 神经 网 络 时 ， 学 习 轨 迹 可 能 罕 过 了 


很 多 不 同 的 结构 ， 最 终 到 达 一 个 局 部 是 凸 硬 的 区 域 。AdaGrad 根 据 平 方 

风 度 的 整个 历史 收缩 学 习 率 ， 可 能 使 得 学 习 对 在 达到 这 样 的 凸 结构 前 束 
变 得 太 小 了 。RMSProp 使 用 指数 豪 减 平均 以 丢 径 遥远 过 去 的 历史 ， 使 其 
能 够 在 找到 凸 硕 状 结构 后 快速 收 伊 ， 它 束 像 一 个 初始 化 于 访 克 状 结构 的 
AdaGrad 算 法 实例 。 


RMSProp 的 标准 形式 如 算法 8.5 所 示 ， 结 合 Nesterov 动 量 的 形式 如 算法 8.6 
所 示 。 相 比 于 AdaGrad， 使 用 移动 平均 引入 了 一 个 新 的 超 参数 p， 用 来 控 
制 移动 平均 的 长 度 泄 围 。 





算法 8.5 RMSProp 算 法 。 





Require: 全 局 学 习 率 疙 » SEALE Zp 

Require: 初始 参数 0 

Require: 小 常数 8S， 通 常设 为 10 -6 (用 于 被 小 数 除 时 的 数值 稳定 ) 
AUN BAA r =0 
while 没有 达到 停止 准则 do 


从 训练 集中 采 包含 m 个 样本 {2 中 ，.. ap) 的 小 批量 ， 对 应 目 


计算 梯度 : g iVe D, L(f (2();0),y) 


累积 平方 梯度 : r— pr+(l1—p)gOg 


1 
/0 十 7 





计算 参数 更 新 : Ag =- Og ( 未 元 系 应 用 ) 


应 用 更 新 : O — 0 + AG 


end while 





算法 8.6 ”使 用 Nesterov 动 量 的 RMSProp 算 法 。 





Require: 全 局 学 习 率 万 >, TWR Kp, DE Ra 
Require: 初始 参数 0 ， 初 始 参 数 v 

急 始 化 累积 变量 三 0 

while 没有 达到 俘 止 准则 do 


从 训练 集中 采 包 含 m 个 样本 { ge tem TD) 的 小 批量 ， 对 应 日 
br Ay) ; 


计算 临时 更 新 : @ 0+ av 

计算 梯度 : g 生计 Va 2 L( f(a: 8). y”) 

累积 梯度 : r— pT? 十 (1 一 p)g OO 

计算 速度 更 新 : 2 二 QV 一 -Og (+ BREN) 
应 用 更 新 : O — 0O +v 


end while 





经 验 上 ，RMSProp 已 被 证 明 是 一 种 有 效 且 实用 的 深度 神经 网 络 优化 算 
法 。 目 前 它 是 深度 学 习 从 业者 经 常 采 用 的 优化 方法 之 一 。 


8.5.3 Adam 


Adam (Kingma and Ba, 2014) 是 另 一 种 学 习 潍 目 适 应 的 优化 算法 ， 如 


BIEB.7AT AN. “Adam” XNA FRA A Ata “adaptive moments”。 早 期 算 
法 背景 下 ， 它 也 许 最 好 被 看 作 结 合 RMSProp 和 具有 一 些 重要 区 别 的 动量 
的 变种 。 首 先 ， 在 Adam 中 ， 动 量 特 接 并 入 了 柳 度 一 阶 算 《指数 加 权 ) 
的 估计 。 将 动量 加 入 RMSProp 最 直观 的 方法 是 将 动量 应 用 于 缩放 后 的 覆 
度 。 绪 合 缩放 的 动量 使 用 没有 明确 的 理论 动机 。 其 次 ，Adam 包 括 侗 置 
人 修正， 修正 从 原点 初始 化 的 一 阶 窍 “动量 项 ) 和 “〔 非 中 心 的 ) 二 阶 矩 的 
估计 “算法 8.7 ) o RMSPropt XH Y GEP ÒH) 二 阶 窍 估计 ， 然 而 
缺失 了 修正 因子 。 因 此 ， 不 像 Adam，RMSProp 二 阶 矩 估计 可 能 在 训练 
倪 期 有 很 蜗 的 偏 置 。Adam 通 党 被 认为 对 超 参 数 的 选择 相当 和 鲁 棒 ， 尺 官 
学 习 率 有 时 逢 要 从 建议 的 堵 认 修改 。 





算法 8.7 ”Adam 算 法。 





Require: SKE (建议 默认 为 : 0.001) 


Require: #271 BAC SR, p4 和 p , 在 区 间 [0,1〉 内。 建议 
默认 为 : 分 别 为 0.9 和 0.999 ) 


Require: ”用 于 数值 稳定 的 小 常数 6 (建议 默认 为 : 10 一 ) 
Require: 初始 参数 6 
初始 化 一 阶 和 二 阶 和 窍 变量 s =0, r=0 
初始 化 时 间 步 t=0 
while 没有 达到 停止 准则 do 


从 训练 集中 采 包 含 m 个 样本 {z(D ,.. 0) 的 小 批量 ， 对 应 目 
AY 。 | 


计算 梯度 : g i Vo L Lla; 0), y) 


m 


Cen | 


更 新 有 偏 一 阶 矩 估计 : s — p18 十 (1 一 p1)g 
更 新 有 偏 二 阶 矩 估计 : r 二 por+(1—po)gOg 


修正 一 阶 矩 的 偏差 : 3 — oe 





修正 二 阶 年 的 偏差 : T — Ty 
计算 更 新 ，Ab = -cE 〈 逐 元 素 应 用 操作 ) 


end while 





8.5.4 选择 正确 的 优化 算法 


在 本 节 中 ， 我 们 讨论 了 一 系列 算法 ， 通 过 自 适应 每 个 模型 参数 的 学 习 率 
以 解决 优化 深度 模型 中 的 难题 。 此 时 ， 一 个 自然 的 问题 是 ， 该 选择 哪 种 
算法 呢 ? 


遗憾 的 是 ， 目 前 在 这 一 点 上 没有 达成 共识 。Schaul et al. (2014) 展示 
了 许多 优化 算法 在 大 量 学 习 任 务 上 极 具 价值 的 比较 。 虽 然 结 果 表 明 ， 其 
有 上 自 适应 学 习 率 (以 RMSProp 和 AdaDelta 为 代表 ) 的 算法 族 表现 得 相当 
SRE, AMAT, (AYA MRS YE Be Abe AULT HE o 


目前 ， 节 流行 并 且 使 用 很 高 的 优化 算法 包括 SGD、 上 基 动 量 的 SGD、 
RMSProp、 具 动量 的 RMSProp、AdaDelta 和 Adam。 此 时 ， 选 择 哪 一 个 
IFIP ERR TEA OM BUEN REE COME BB) 。 


8.6 ”二 阶 近 似 方 法 
在 本 节 中 ， 我 们 会 讨论 训练 深度 神经 网 络 的 二 阶 方法 。 参 考 LeCun et al. 


(1998a) 了 解 该 问题 的 早期 处 理 方法 。 为 表述 简单 起 见 ， 我 们 只 考察 
目标 函数 为 经 验 风 险 : 


m 


1 m | | , 
NE) = ga = Le (8.25) 
二 二 


然而 ， 我 们 在 这 里 讨论 的 方法 很 容易 扩展 到 更 一 般 的 目标 函数 ， 例 如 ， 
第 7 重 讨论 的 包括 参数 正则 项 的 函数 。 


8.6.1 ”牛顿 法 


在 第 4.3 节 ， 我 们 介绍 了 三 阶梯 度 方 法 。 与 一 阶 方法 相 比 ， 三 阶 方法 使 
用 二 阶 导 数 改进 了 优化 。 最 三 沁 使 用 的 二 阶 方 法 是 牛顿 法 。 我 们 现在 更 
详细 地 搞 述 牛顿 法 ， 重 点 在 其 应 用 于 神经 网 络 的 训练 。 


PE es TTR BUR ITER IA 0 0 附近 来 近似 J (6 ) 的 优化 方 
i, KAR Ste TAP: 


J(0) = J(@0) + (@ — 80) ' Ve.J(6o) + 5 (0 — 8o)! H(@ — 80) (8.26) 


其 中 H 是 J 相对 于 0 WjHessiantE KEE 0 ， 处 的 估计 。 如 果 我 们 再 求解 这 
个 图 数 的 临界 点 ， 将 得 到 牛顿 参数 更 新 规则 : 


0*=00— H Ve.(00) (8.27) 


因此 ， 对 于 局 部 的 二 次 函数 BAEZ H ), WAL, 重新 调整 梯 
度 ， 和 牛顿 法 会 直接 跳 到 极 小 值 。 如 果 目 标 函 数 是 凸 的 但 非 二 次 的 《有 高 
阶 项 )， 该 更 新 将 是 迄 代 的 ， 得 到 和 牛顿 法 相关 的 拭 法 ， 如 算法 8.8 所 
JK o 


{FSET RIT, R Hessian Be etek xe, PAA RE EREE Dy 
用 。 这 意味 着 一 个 两 步 迭 代 过 程 。 Aio Eyki Hessian OM E 
新 二 阶 近似 ) 。 其 次 ， 根 据 式 (8.27) 更 新 参数 。 





算法 8.8 ”目标 为 J(6) = 上 可 中 L( f(a: 0), yO) 的 牛顿 法 。 





Require: 初始 参数 0， 


Require: 包含 mm 个 样本 的 训练 集 
while 没有 达到 停止 准则 do 
计算 梯度 : g — 元 Ve >>, L( f(a; 0), y™) 
计算 Hessian 矩 阵 : H — +V2 >. L( f(a: 0), y) 


计算 Hessian 逆 : H! 
计算 更 新 ， A0 =-H tg 
应 用 更 新 : O = O@+ AG 


end while 


在 第 8.2.3 节 ， 我 们 讨论 了 牛顿 法 只 适用 于 Hessian 窍 阵 是 正定 的 情况 。 在 
TREE IP, App ee ee A a E CARS REED » Gee. AE 
使 用 牛顿 法 是 有 问题 的 。 如 果 Hessian 和 矩阵 的 特征 值 并 不 都 是 正 的 ， 例 
如 ， 靠 近 苑 点 处 ， 牛 顿 法 实际 上 会 导致 更 新 绷 错 误 的 方 回 移动 。 这 种 情 
况 可 以 通过 正则 化 Hessian 算 阵 来 避免 。 归 用 的 正则 化 全 上 略 包 括 在 
Hessian 算 [ 阵 对 角 线 上 增加 第 数 a。 正 则 化 更 新 变 为 


0° = Oy — [H (f (00)) + ol]-!Vef (00) (8.28) 


这 个 正则 化 案 略 用 于 牛顿 法 的 近似 ， 例 如 Levenberg-Marquardt 算 法 
(Levenberg, 1944; Marquardt, 1963) ， 只 要 Hessian 和 矩阵 的 负 特 征 值 
仍然 相对 接近 零 ， 效 果 束 会 很 好 。 在 曲率 方 癌 更 极 问 的 情况 下 ，a 的 值 
必须 正人 够 大 ， 以 抵消 负 特 征 值 。 然 而 ， 如 有 条 oa 持续 增加 ，Hessian 和 矩阵 会 
Aes FY FA FE Mo 工 主 寻 ， 通 过 牛顿 法 所 选择 的 方 同 会 收敛 到 普通 棉 度 
除 以 aq。 妆 很 强 的 负 曲 众 存 在 时 ，a 可 能 需要 特别 大 ， 以 至 于 牛顿 法 比 选 
择 合 适 学 习 率 的 楷 度 下 降 的 步 长 更 小 。 


除了 目标 函数 的 作 些 特征 市 来 的 挑战 ， 如 邯 操 ， 牛 顿 法 用 于 训练 大 型 神 
经 网 络 还 受 限 于 其 显著 的 计算 负担 。Hessian 和 矩阵 中 元 素数 目 是 参数 数量 
的 平方 ， 因 此 ， 如 果 参 数 数 日 为 k( 甚 至 古 在 非常 小 的 神经 网 络 中 k 也 可 


能 是 百 万 级 别 ) » FE m AA kkE Re, MARREN 3 
)。 为 外 ， 由 于 参数 将 每 次 更 新 都 会 改变 ， 每 次 训练 迭代 都 雷 要 计算 
Hessian 知 阵 的 好 。 其 结果 是 ， 只 有 参数 很 少 的 网 络 才 能 在 实际 中 用 牛顿 
法 训练 。 在 本 区 的 剩余 部 分 ， 我 们 将 讨论 一 些 试图 保持 牛顿 法 优点 ， 同 
时 避免 计算 隐 但 的 和 蔡 代 算 法 。 


8.6.2 JEU RARE 


HIR cE PII IA TR F NRA Ie] (conjugate directions) 以 有 
Cee Se Hessian FE PE Tt aN FI. KPIZ 2 BOK AY EB MAE 
ASIA AN CCEA Se 4.3) , ARRIR RR HA 
FSRA TA. 8.6 tH WATE TE — VA H os FO ty 
现 的 ， 是 一 个 相当 低 效 的 来 回 往 复 ， 锯 齿 形 模式 。 这 是 因为 每 一 个 由 榜 
度 给 定 的 线 搜索 方 同 ， 都 保证 正 交 于 上 一 个 线 搜索 方 问 。 
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图 8.6 Re PR RRA DMAP RRAK. TEBE ARH, BE RTA a UA ACE EY i BE 
定义 的 线 跳 到 最 低 代 价 的 点 。 这 解雇 了 图 4.6 中 使 用 固定 学 习 率 所 过 到 的 一 些 问题 ， 但 即使 使 用 
最 佳 步 长 ， 算 法 仍然 蝴 最 优 方 回 曲 折 前 进 。 根 据 定义 ， 在 沿 看 给 定 方 回 的 目标 最 小 值 处 ， 最 终 
氮 处 的 梯度 与 该 方 网 正 区 





假设 上 一 个 搜索 方向 是 Qf _ 1 ””。 在 极 小 值 处 ， 线 搜索 终止 ， 方 向 
di1 处 的 方向 导数 为 零 ， Ve.J(B) . di_1 一 0 。 因 为 该 点 的 梯 
度 定义 了 当前 的 搜索 方向 ,dj 一 Vg.](0) ”将 不 会 贡献 于 方向 


di; 。 因此 方向 dj 正 交 于 Qj_1 。 最 速 下 降 多 次 迭代 中 ， 方 向 


Qi_ | 和 dQ， 之 间 的 关系 如 图 8.6 所 示 。 如 图 展示 的 那样 ， 下 降 正 交 方 
向 的 选择 不 会 保持 前 一 搜索 方向 上 的 最 小 值 。 这 产生 了 饮 齿 形 的 过 程 。 
在 当前 梯度 方向 下 降 到 极 小 值 ， 我 们 必须 重新 最 小 化 之 前 梯度 方向 上 的 
有 标 。 因 此 ， 通 过 遵循 每 次 线 搜索 结束 时 的 梯度 ， 我 们 在 某 种 程度 上 撤 
销 了 在 之 前 线 搜索 的 方向 上 取得 的 进展 。 共 思 梯 度 试图 解决 这 个 问题 。 
在 共 斩 梯 度 法 中 ， 我 们 寻求 一 个 和 先前 线 搜索 方向 共 辑 〈conjugate) 的 
搜索 方向 ， 即 它 不 会 撤销 该 方向 上 的 进展 。 在 训练 兴 代 t 时 ， 下 一 步 的 
搜索 方向 d, 的 形式 如 下 ;: 


= VoJ(0) + Bidt_1 (8.29) 


KP, AEB, 的 大 小 控制 我 们 应 沿 方 癌 d 1 加 回 多 少 到 当前 搜索 方 辐 
Ee 


nrd, H dy_1 = 0 0 H Hessians, 风 丙 
ANAE di M d 1 REARED 

VIN ARIES Re H RPE WT RAPER ，。 这 将 无 法 满 
足 我 们 的 开发 目标 : 寻找 在 大 问题 比 牛 顿 法 计算 更 加 可 行 的 方法 。 我 们 
能 人 奋 不 进行 这 些 计 算 而 得 到 共 红 方 同 ? 羡 运 的 是 ， 这 个 问题 的 答案 是 肯 
FE HY o 

两 种 用 于 计算 Bi 的 流行 方法 是 

(1) Fletcher-Reeves: 


Vo J (91) | VoJ (4) 


B, = ——— 8.30 
"O VeJ(0: 1)' VoJ (0:1) 8-90) 
(2) Polak-Ribi ere: 
7 
B IE (VaJ (0+) i Ve/(0:_1)) Vol (Gz) (8.31) 


VoJ (91-1)! Vo J(Ot—1) 


MPF HT TT Se» FRET Td i BET a HT 7 TA AZ ASR AE, 


PANE LRM. RARE, EK ESA, TG 
BER tin BSE eK AR Ze EIA BME. SRE SAW FAB. OPT 
ZN o 
算法 8.9 HIENA. 
Require: 初始 参数 0 
Require: 包含 m 个 样本 的 训练 集 
初始 化 pv， =0 
初始 化 go =0 
初始 化 t 王 1 
while 没有 达到 停止 准则 do 
初始 化 梯度 g , =0 
计算 梯度 : g, — Vo >, L(f (2:6), y™) 


HEB, 二 {9e~9e—1) ge (Polak-Ribière) 
dr —19t—1 


( 非 线 性 共 思 梯度 视 情况 可 重 置 B ， 为 零 ， 例 如 t 是 常数 k 的 倍数 


计算 搜索 方向 : ps 二 一 gy + Bepi_1 
FERIA 机 。 
& = argmine =)", L(f(a!”; 4: + ep), yO) 


(对 于 真正 二 次 的 代价 函数 ， 存 在 E” 的 解析 解 ， 而 无 须 显 式 地 搜 


索 ) 
应 用 更 新 : Di 一 0; T E P: 
t-tt1 


end while 


非 线 性 共 思 梯度 : H, RMCA PAPE ee ae 
及 法 。 当 然 ， 本 章 我 们 主要 关注 于 探索 训 练 神 经 网 络 和 其 他 相关 深 展 学 
习 柑 型 的 优化 方法 ， 其 对 应 的 目标 函数 比 二 次 函数 复 森 得 多 。 或 放 令 人 
惊讶 ， 共 绒 标 度 法 在 这 种 情况 下 仍然 是 适用 的 ， 尺 官 需 要 做 一 些 修改 。 
没有 目标 是 二 次 的 保证 ， 共 斩 方 癌 也 不 绸 保证 在 以 前 方 网 上 的 目标 仍 是 
极 小 值 。 其 结 来 是 ， 非 线性 共 柏 柳 度 ”算法 会 包括 一 些 偶尔 的 重 设 ， 共 
EA BETA AME BEN ts BS E Jia BFL ZR o 


KERERE, EKER HAA SEZ PES SG RE EE I ZS 28 GS 
H, SP CEFF aa Ee Ae FE 0 E mE LER Bee Ra FOR a 
化 效果 更 好 。 另 外 ， 尽 管 《〈 非 线性 ) JESUS Ra LEAS TATE, 
小 批量 版 本 已 经 成 功用 于 训练 神经 网 络 (Le et al. , 2011) 。 针 对 神经 
网 路 的 共 罗 梯度 应 用 早已 被 提出 ， 例 如 缩放 的 共 思 梯 度 算法 (Moller, 
1993) 。 


8.6.3 BFGS 


Broyden-Fletcher-Goldfarb-Shanno (BFGS) 算法 具有 牛顿 法 的 一 些 
优点 ， 但 没有 牛顿 法 的 计算 负担 。 在 这 方面 ，BFGS 和 CG 很 像 。 然 而 ， 
BFGS 使 用 了 一 个 更 直接 的 方法 近似 牛顿 更 新 。 回 顾 牛 顿 更 新， 由 下 式 
给 出 

0*=00— HVe(00) (8.32) 


其 中 ， H 是 J 相对 于 0 HY HessiantEREZE 0 o 处 的 估计 。 运 用 牛顿 法 的 主 
要 计算 难点 在 于 计算 Hessian 逆 A, 。 拟 牛顿 法 所 采用 的 方法 (BFGS 是 
其 中 最 突出 的 ) 是 使 用 窍 阵 M Ee, ACHE E i E LA ef Hh 


近似 Hj。 


BFGS 近 似 的 说 明和 推 寻 出 现在 很 多 关于 优化 的 教科 书 中 ， 包 括 
Luenberger (1984) . 


= Hessian VTA M | 更 新 时 ， 下 降 方 同 p, 为 py,=M,gt。 议 方向 上 的 线 
搜索 用 于 决定 该 方向 上 的 步 长 c” 。 参 数 的 最 后 更 新 为 


0444 = 0; 十 E P (8.33) 


ASE ERE IEA, BEGSR AAR- AMAR, FOTIA Ms 
A. AmE EAT YEH MISES BE FR I BR 
fRIZT7 [a] EMAER — A. AE, A FENE, BFGS 
的 优点 是 其 花费 较 少 的 时 间 改 进 每 个 线 搜索 。 男 一 方面 ，BFGS 算 法 必 
须 存 储 Hessian 逆 和 矩阵 M ， 需 要 O(n* ) 的 存储 空间 ， 使 BFGS 不 适用 于 大 
多 数 具 有 百 万 级 参数 的 现代 深度 学 习 模 型 。 


存储 受 限 的 BFGS (或 L-BFGS) 通过 避免 存储 完整 的 Hessian 逆 近似 
M ，BFGS 算 法 的 存储 代价 可 以 显 闭 降低 。L-BFGS 算 法 使 用 和 BFGS 算 
法 相同 的 方法 计算 M 的 近似 ， 但 起 始 假设 是 MOY) 是 单位 矩阵 ， 而 不 
是 一 步 一 步 都 要 存储 近似 。 如 果 使 用 精确 的 线 搜索 ，L-BFGS 定 义 的 方 

回 会 是 相互 共 斩 的。 然 和 而， 不同 于 共 斩 梯 上 度 法 ， 即 使 只 是 近似 线 搜索 的 
极 小 值 ， 该 过 程 的 效果 仍然 不 错 。 这 里 描述 的 无 存储 的 L-BFGS 方 法 可 

以 拓展 为 包含 Hessian 窍 阵 更 多 的 信息 ， 每 步 存 储 一 些 用 于 更 新 M 的 问 
量 ， 晶 每 步 的 存储 代价 是 O(n)。 


8.7 ”优化 案 略 和 元 算法 


主 多 优化 技术 并 非 真正 的 算法 ， 而 是 一 般 化 的 檬 板 ， 可 以 特定 地 产生 算 
法 ， 或 是 并 入 到 很 多 不 同 的 算法 中 。 


8.7.1 批 标准 化 
批 标准 化 (Ioffe and Szegedy, 2015) 是 优化 深度 神经 网 络 中 最 激动 人 


心 的 最 新 创新 之 一 。 实 际 上 它 并 不 是 一 个 优化 算法 ， 而 是 一 个 目 适 应 的 
ESARTE, ARRIK EA IRIE H AE 


非常 深 的 模型 会 涉及 多 个 函数 或 层 组 合 。 在 其 他 层 不 改变 的 假设 下 ， 梯 
度 用 于 如 何 更 新 每 一 个 参数 。 在 实践 中 ， 我 们 同时 更 新 所 有 层 。 妆 我 们 
进行 更 新 时 ， 可 能 会 发生 一 些 总 想不到 的 结果 ， 这 是 因为 许多 组 合 在 一 
起 的 函数 同时 改变 时 ， 计 算 更 新 的 假设 是 其 他 函数 保持 不 变 。 举 一 个 简 
里 的 例子 ， 假 设 我 们 有 一 个 深度 促 经 网 络 ， 每 一 层 只 ae 
在 每 个 隐藏 层 不 使 用 激活 函数 : 4 二 ow 123 D?103 W 。 此 
处 ，w ; 表示 用 于 层 i 的 权重 。 层 i 的 输出 是 岂 ， = h; aw; ,输出 
是 输入 x 的 线性 函数 ， 但 是 权重 w ; 的 非 线 性 函数 。 假设 代价 函数 上 的 
es 为 1， on. a 望 稍稍 降低 。 然 后 反 向 传播 算法 可 以 计算 梯度 

= Ve ， 想 想 我 们 在 更 新 &0) — W 一 EQ 时 会 发 生 
并 wy, 的 一 耻 泰 勒 级 数 会 预测 ? ly 的 值 下 降 ecg g 。 如 果 我 们 希 
By 下 降 0.1， 那 么 梯度 中 的 一 阶 信 息 表明 我 们 应 设置 学 习 率 C 为 
。 然 而 ， 实 际 的 更 新 将 包括 二 阶 、 三 阶 直 到 ] 阶 区 影 啊 。 Ô 的 更 新 值 为 


T(W1 — €g1)(we 一 eg2) +++ (wi — €g1) (3.34) 


这 个 重新 中 所 产生 的 一 个 一 阶 项 示例 下 5 > IL, 

这 个 更 新 中 有 所 产生 的 一 个 二 阶 项 示例 是 € 9192 ,3 WwW; 

waji 2 Ww; 很 小 ， 那 么 该 项 可 以 忽略 不 计 。 而 如 果 层 3 到 层 
t= 


1 的 权重 都 比 1 大 时 ， 该 项 可 能 会 指 数 级 大 。 这 使 得 我 们 很 难 选择 一 个 合 
适 的 学 习 率 ， 因 为 条 一 层 中 参数 更 新 的 效果 很 大 程度 上 取决 于 其 他 所 有 
屋 。 二 阶 优 化 拭 法 通过 考虑 二 阶 相互 影响 来 解决 这 个 问题 ， 但 我 们 可 以 
看 到 ， 在 非常 深 的 网 络 中 ， 更 高 阶 的 相互 影响 会 很 显 者 。 即 使 是 二 阶 优 
化 算法 ， 计 算 代 价 也 很 高 ， 并 且 通 名 需要 大 量 近似 ， 以 免 真 正 计 算 所 有 
的 重要 二 阶 相 互 作用 。 因 此 对 于 n>2 的 情况 ， 建 立 n 阶 优化 算法 似乎 是 
无 强 的 。 那 么 我 们 可 以 做 坚 什 么 呢 ? 


批 标 准 化 所 出 了 一 种 几乎 可 以 重 参数 化 所 有 深度 网 络 的 优雅 方法 。 重 参 
数 化 蛙 者 减少 了 多 层 之 间 协 调 更 新 的 问题 。 批 标准 化 可 应 用 于 网 络 的 任 
MARR. a H 是 需要 标准 化 的 东 层 的 小 批量 激活 函数 ， 排 
布 为 设计 定 阵 ， 每 个 样本 的 激活 出 现在 窍 阵 的 每 一 行 中 。 为 了 标准 化 H 
» BATE IRA 





(8.35) 

KP p 是 包含 每 个 单元 均值 的 向 量 ，o 是 包含 每 个 单元 标准 差 的 向 量 。 
此 处 的 算术 是 基于 广播 向 量 p 和 向 量 o 应 用 于 矩阵 H 的 每 一 行 。 在 每 
TW, HUTA, KUL, mae, 再 除 以 c; 。 网 络 的 
其 余部 分 操作 瑟 ' 的 方式 和 原 网 络 操作 五 的 方式 一 样 。 


在 训练 阶段 ， 
p= DH (8.36) 
和 


(8.37) 





其 中 5 是 个 很 小 的 正 值 ， 比 如 10 -8 ， 以 强制 避免 遇 到 /3 的 梯度 在 z=0 
处 未 定义 的 问题 。 至 关 重 要 的 是 ， 我 们 反 向 传播 这 些 操作 ， 来 计算 均值 
和 标准 差 ， 并 应 用 它们 于 标准 化 万 。 这 意味 着 ， 梯 度 不 会 再 简单 地 增 
加 hi 的 标准 差 或 均值 ， 标 准 化 操作 会 除 掉 这 一 操作 的 影响 ， 归 零 其 在 梯 
度 中 的 元 素 。 这 是 批 标准 化 方法 的 一 个 重大 创新 。 以 前 的 方法 添加 代价 
函数 的 惩罚 ， 以 鼓励 单元 标准 化 激活 统计 量 ， 或 是 在 每 个 梯度 下 降 步 又 
之 后 重新 标准 化 单元 统计 量 。 前 者 通常 会 导致 不 完全 的 标准 化 ， 而 后 者 
通常 会 显著 地 消耗 时 间 ， 因 为 学 习 算法 会 反复 改变 均值 和 方差 而 标准 化 
步骤 会 反复 抵消 这 种 变化 。 批 标准 化 重 参数 化 模型 ， 以 使 一 些 单元 总 是 
被 定义 标准 化 ， 巧 妙 地 回避 了 这 两 个 问题 。 


在 测试 阶段 ，p Ao 可 以 被 奉 换 为 训练 阶段 收集 的 运行 均值 。 这 使 得 模 
型 可 以 对 单一 样本 评 佑 ， 而 无 须 使 用 定义 于 整个 小 批量 的 志和 o 。 


回顾 例子 好 = T01102 :Wj ， 我 们 看 到 ， 可 以 通过 标准 化 h 11 
很 大 程度 地 解决 学 习 这 个 模型 的 问题 。 假 设 x 采 样 自 一 个 单位 高 斯 ， 那 
么 h ,也 是 来 自 高 斯 ， 因 为 从 x 到 h ,的 变换 是 线性 的 。 然 而 ，h ,i 不 再 
有 零 均 值 和 单位 方差 。 使 用 批 标准 化 后 ， 我 们 得 到 的 归 一 化 有 ， 恢复 


了 零 均值 和 单位 方差 的 特性 。 对 于 底层 的 几乎 任意 更 新 而 言 ， 及，， 仍 
然 保持 着 单位 高 斯 。 然 后 输出 4 可 以 学 习 为 一 个 简单 的 线性 函数 
站 二 wihi 。 现 在 学 习 这 个 模型 非常 简单 ， 因 为 低层 的 参数 在 大 多 数 
情况 下 没有 什么 影响 ， 它 们 的 输出 总 是 重新 标准 化 为 单位 高 斯 。 只 在 少 
数 个 例 中 ， 低 层 会 有 影响 。 改 变 某 个 低层 权重 为 0， 可 能 使 输出 退化 ; 
改变 低层 权重 的 符号 可 能 反 转 入，， 和 y 之 间 的 关系 。 这 些 情况 都 是 非常 
罕见 的 。 没 有 标准 化 ， 几 平 每 一 个 更 新 都 会 对 h |, 的 统计 量 有 着 极端 的 
影响 。 因 此 ， 批 标准 化 显著 地 使 得 模型 更 易学 习 。 在 这 个 示例 中 ， 容 易 
学 习 的 代价 是 使 得 底层 网 络 没有 用 。 在 我 们 的 线性 示例 中 ， 较 低层 不 再 
有 任何 有 害 的 影响 ， 但 它们 也 不 再 有 任何 有 益 的 影响 。 这 是 因为 我 们 已 
经 标准 化 了 一 阶 和 二 阶 统 计量 ， 这 是 线性 网 络 可 以 影响 的 所 有 因素 。 在 
具有 非 线 性 激活 函数 的 深度 神经 网 络 中 ， 较 低层 可 以 进行 数据 的 非 线性 
变换 ， 所 以 它们 仍然 是 有 用 的 。 批 标准 化 仅 标 准 化 每 个 单元 的 均值 和 方 
A A 
生变 化 。 


由 于 网 络 的 最 后 一 层 能 够 学 习 线 性 变换 ， 实 际 上 我 们 可 能 硕 望 移 除 一 
内 单元 之 间 的 所 有 线性 关系 。 事 实 上 ， 这 十 Guillaume 

Desjardins (2015) 中 采用 的 方法 ， 为 批 标准 化 提供 了 灵感 。 令 偿 憾 
的 是 ， 消 除 所 有 的 线性 关联 比 标准 化 各 个 独立 单元 的 均值 和 标准 差 代 价 
更 高 ， 因 此 批 标 准 化 仍 是 迄今 最 实用 的 方法 。 


标准 化 一 个 单元 的 均值 和 标准 差 会 降低 包含 该 单元 的 神经 网 络 的 表达 能 
力 。 为 了 保持 网 络 的 表现 力 ， 通 常会 将 批量 隐藏 单元 激活 “ 互 BKA 
HH! + B ， 而 不 是 简单 地 使 用 标准 化 的 再 ′。 变 量 y 和 B 是 允许 新 变 
量 有 任意 均值 和 标准 差 的 学 习 参 数 。 千 一 看 ， 这 似乎 是 无 用 的 一 一 为 什 
么 我 们 将 均值 设 为 0， 然 后 又 引入 参数 允许 它 被 重 设 为 任意 值 6 ? 答案 
是 新 的 参数 可 以 表示 旧 参 数 作为 输入 的 同一 族 函 数 ， 但 是 新 参数 有 不 同 
的 学 习 动 态 。 在 旧 参 数 中 ， H 的 均值 取决 于 H 下 层 中 参数 的 复杂 关 
联 。 在 新 参数 中 ，~y 及 和 + B 的 均值 仅 由 B 确定 。 新 参数 很 容易 通过 
梯度 下 降 来 学 习 。 

大 多 数 神经 网 络 层 会 采取 9 (XW +b ) 的 形式 ， 其 中 9 是 某 个 固定 的 非 线 


性 激活 函数 ， 如 整流 线性 变换 。 上 自然 想到 我 们 应 该 将 批 标准 化 应 用 于 输 
入 和 还 是 变换 后 的 值 和 W +b 。Ioffe and Szegedy (2015) 推荐 后 者 。 更 


Nil 


x 





具体 地 讲 ，XW +b PRAWN XW 的 标准 化 形式 。 偏 置 项 应 被 忽略 ， 
为 参数 B 会 加 入 批 标准 化 重 参数 化 ， 它 是 元 余 的 。 一 层 的 输入 通常 是 前 
一 层 的 非 线 性 激活 函数 (如 整流 线性 函数 ) 的 输出 。 因 此 ， 输 入 的 统计 
量 更 符合 非 高 斯 ， 而 更 不 服从 线性 操作 的 标准 化 。 


第 9 草 所 述 的 香 积 网 络 ， 在 特征 映射 中 每 个 空间 位 置 同 样 地 标准 化 b 和 a 
旦 很 重要 的 ， 能 使 特征 映射 的 统计 量 不 因 空间 位 置 而 保持 相同 。 


8.7.2 ”坐标 下 降 


在 某 些 情况 下 ， 将 一 个 优化 问题 分 解 成 几 个 部 分 ， 可 以 更 快 地 解决 原 问 
题 。 如 果 我 们 相对 于 某 个 时 一 变量 x; 最 小 化 f( x )， 然 后 相对 于 为 一 个 变 
量 x ; 等 等 ， 反 复 循环 所 有 的 变量 ， 我 们 会 保证 到 达 《〈 局 部 ) 极 小 值 。 这 
种 做 法 被 称 为 坐标 下 降 Ccoordinate descent) ， 因 为 我 们 一 次 优化 一 个 
坐标 。 更 一 般 地 ， 块 人 举 标 下 降 (block coordinate descent) 是 指 对 于 某 
个 子 集 的 变量 同时 最 小 化 。 术 语 “ 坐 标 下 降 ” 通 第 既 指 块 坐 标 下 降 ， 也 指 
严格 的 单个 坐标 下 降 。 


当 优化 问题 中 的 不 同 变 量 能 够 清楚 地 分 成 相对 独立 的 组 ， 或 是 当 优 化 一 
组 变量 明显 比 优 化 所 有 变量 效率 更 高 时 ， 坐 标 下 降 最 有 意义 。 例 如 ， 考 
SARIT PK Ba 


(8.38) 


J(H, W) = Ds |H; j| + J (x - WH) 
TZ PRIS PAR A Bat a SS AY ed Pe, SS Pe aOR PM 
ERE W ， 可 以 线性 解 但 激活 值 窍 阵 ADLER VIZ X o MRAK 
多 数 应 用 还 涉及 权重 桶 减 或 W 列 光 数 的 约束 ， 以 避免 极 小 互 和 极 大 W 
的 病态 解 。 


图 数 J 不 是 巴 的 。 然 而 ， 我 们 可 以 将 训练 算法 的 输入 分 成 两 个 集合 : F 
典 参 数 W 和 编码 表示 H 。 最 小 化 关于 这 两 者 之 一 的 任意 一 组 变量 的 目 
标 函 数 都 是 凸 问 题 。 因 此 ， 块 坐标 下 降 允 许 我 们 使 用 高 效 的 证 优 化 算 
法 ， 交 和 殖 固 定 百 优化 永和 固定 永 优 化 五 。 


当 一 个 变量 的 值 很 大 程度 地 影响 万 一 个 变量 的 最 优 值 时 ， 坐 标 下 降 不 是 


SRETNE, WRB (a) = (Zi — r3) +a(aj+a5) ， 其 
Hoe IEE i a. i A Se A, 1 E 
们 接近 零 。 解 是 两 者 都 为 零 。 牛 顿 法 可 以 一 步 解决 这 个 问题 ， 因 为 它 是 
一 个 正定 二 次 问题 。 但 是 ， 对 于 小 值 x 而 言 ， 坐 标 下 降 会 使 进展 非常 组 
展 ， 因 为 第 一 项 不 允许 单个 变量 变 为 和 其 他 变量 当前 值 显 堵 个 同 的 值 。 


8.7.3 Polyak 和 平均 


Polyak 平 均 (Polyak and Juditsky, 1992) 会 平均 优化 算法 在 参数 空间 访 
问 轨 迹 中 的 几 个 点 。 如 果 t 次 迭代 梯度 下 降 访 问 了 点 9(1).... QM, Fp 


么 Polyak 平 均 算法 的 输出 是 a” 1 QU) . axe 


问题 中 ， 如 梯度 下 降 应 用 于 凸 问题 时 ， 这 种 方法 具有 较 强 的 收敛 保证 。 

当 应 用 于 神经 网 络 时 ， 其 验证 更 多 是 局 友 式 的 ， 但 在 实践 中 表现 民 好 。 

基本 想法 是 ， 优 化 算法 可 能 会 来 回 军 过 山谷 好 几 侈 而 没 经 过 山 舍 确 部 附 
近 的 点 。 尽 管 两 边 所 有 位 置 的 均值 应 比较 接近 谷 撒 。 


在 非 凸 问题 中 ， 优 化 轨迹 的 路 径 可 以 非 间 复杂， 并 且 经 过 了 许多 不 同 的 
区 域 。 包 括 参 数 空间 中 通 远 过 去 的 点 ， 可 能 与 当前 扩 在 代价 了 疯 数 上 相 隅 
很 大 的 障碍 ， 看 上 去 不 像 一 个 有 用 的 行为 。 其 结束 是 ， 当 应 用 Polyak 乎 
SYP AR ayy, Te aS oe A fs ee ak Pe 

区 — oe” a it je" (8.39) 
oP TEP EI TAU. BEY Its A 
Szegedy etal. (2015) 。 


8.7.4 监督 预 训 练 


有 时 ， 如 有 果 模 型 太 复 末 难 以 优化 或 是 任务 非常 困难 ， 直 接 训 练 模型 来 解 
决 特定 任务 的 挑战 可 能 太 大 。 有 时 训练 一 个 较 人 简 蛙 的 模型 来 求解 问题 ， 
然后 使 模型 更 复 林 会 更 有 效 。 训 练 模型 来 求解 一 个 简化 的 问题 ， 然 后 转 
移 到 最 后 的 问题 ， 有 了 时 也 会 更 有 效 些 。 这 些 在 直接 训练 目标 模型 求解 目 
标 问 题 之 前 ， 训 练 位 单 模 型 求解 简化 问题 的 方法 统称 为 预 训练 
(pretraining) 。 


贫 心 算法 (greedy algorithm) 将 问题 分 解 成 许多 部 分 ， 然 后 独立 地 在 每 
个 部 分 求解 最 优 值 。 令 人 遗憾 的 是 ， 结 合 各 个 最 佳 的 部 分 不 能 信 证 得 到 
一 个 最 佳 的 完整 解 。 然 而 ， 信 心算 法 计算 上 比 求 解 最 优 联合 解 的 算法 融 
效 得 多 ， 并 且 信 心算 法 的 解 在 不 是 最 优 的 情况 下 ， 人 往往 也 是 可 以 接受 
的 。 贫 心算 法 也 可 以 紧 接 一 个 精 调 (fine-tuning)〉 阶段 ， 联 合 优化 算法 
搜索 全 问题 的 最 优 解 。 使 用 信心 解 初 始 化 联合 优化 算法 ， 可 以 极 大 地 加 
速算 法 ， 并 提高 寻找 到 的 解 的 质量 。 


预 训 练 算 法 ， 特 别 是 贫 心 预 训 练 ， 在 深度 学 习 中 是 普 遇 存在 的 。 在 本 
中 ， 我 们 会 具体 摘 述 这 些 将 监督 学 习 问 题 分 解 成 其 他 简化 的 监督 学 习 问 
题 的 预 训练 算法 。 这 种 方法 科 称 为 贫 心 监督 预 训练 Cgreedy supervised 
pretraining) 。 


在 贪心 监督 预 训练 的 原始 版 本 (Bengio et al. , 2007c) 中 ， 每 个 阶段 包 
括 一 个 仅 涉 及 最 终 神 经 网 络 的 子 集 层 的 监督 学 习 训练 任务 。 贫 心 监 督 预 
训练 的 一 个 例子 如 图 8.7 所 示 ， 其 中 每 个 附加 的 隐 基 层 作 为 线 层 监督 多 
层 感 知 机 的 一 部 分 预 训练 ， 以 先前 训练 的 隐藏 层 输出 作为 输入 。 
Simonyan and Zisserman (2015) 预 训练 深度 卷 积 网 络 (11 层 权重 ) ， 然 
后 使 用 该 网 络 前 四 层 和 最 后 三 层 初 始 化 更 深 的 网 络 〈( 多 达 19 层 权重 )， 
并 非 一 次 预 训 练 一 层 。 非 单 深 的 新 网 络 的 中 间 层 是 随机 初始 化 的 。 然 后 
联合 训练 新 网 络 。 还 有 一 种 选择 ， 由 Yu et al. (2010) 提出 ， 将 先前 训 
练 多 层 感 知 机 的 输出 ， 以 及 原始 输入 ， 作 为 每 个 附加 阶段 的 输入 。 





(c) 


图 8.7 “一 种 形式 的 贪心 监督 预 训 练 的 示意 图 (Bengio etal., 2007a) 。 (a) 我 们 从 训练 一 个 足 
WRENS IF Ga. Cb) 同一 个 架构 的 另 一 摘 绘 。〈c) 我 们 只 保留 原始 网 络 的 输入 到 隐 蕊 层 ， 
并 丢弃 隐藏 到 输出 层 。 我 们 将 第 一 层 隐 茂 层 的 输出 作为 输入 发 送 到 另 一 监督 单 隐 层 MLP EH 
与 第 一 个 网 络 相同 的 目标 训练 ) ， 从 而 可 以 添加 第 二 层 隐 省 层 。 这 可 以 根据 需要 重复 多 层 。 





Cd) 所 得 架构 的 另 一 种 描绘 ， 可 视 为 前 馈 网 络 。 为 了 进一步 改进 优化 ， 我 们 可 以 联合 地 精 调 所 
有 层 〈 仪 在 该 过 程 的 结束 或 者 该 过 程 的 每 个 阶段 ) 


为 什么 信心 监督 预 训练 会 有 帮助 呢 ? 最 初 由 Bengio et al. (2007d) 提出 
的 假说 是 ， 其 有 助 于 更 好 地 指导 深层 结构 的 中 间 层 的 学 习 。 一 般 情 况 
下 ， 预 训练 对 于 优化 和 泛 化 都 是 有 帮助 的 。 


另 一 个 与 监督 预 训 练 有 关 的 方法 扩展 了 迁移 学 习 的 想法 : Yosinski et al. 
(2014) 在 一 组 任务 上 预 训练 了 8 层 权 重 的 深度 卷 积 网 络 (1000 个 
ImageNet 对 象 类 的 子 集 ) ， 然 而 用 该 网 络 的 前 k 层 初始 化 同样 规模 的 网 
络 。 然 后 第 二 个 网 络 的 所 有 层 (上 层 随 机 和 初始化) 联合 训练 以 执行 不 同 
的 任务 (1000 个 ImageNet 对 象 类 有 的 男 一 个 子 集 ) ， 但 训练 样本 少 于 第 一 
个 任务 。 神 经 网 络 中 为 一 个 和 迁移 学 习 相 关 的 方法 将 在 第 15.2 市 讨论 。 


另 一 条 相关 的 工作 线 是 FitNets (Romero et al., 2015) 方法 。 这 种 方法 
Ca VAR EE Re RA RE EK CREE CR) ， 容 易 训 练 的 网 络 。 
然后 ， 这 个 网 络 成 为 第 二 个 网 络 ( 被 指定 为 学 生 ) 的 老师 。 学 生 网 络 
EREE (11-198) ， 明 在 正常 情况 下 很 难 用 SGD 训 练 。 训 练 学 生 网 
络 不 仪 需要 预测 原 任务 的 输出 ， 还 需要 预测 教师 网 络 中 间 层 的 值 ， 这 样 
使 得 训练 学 生 网 络 变 得 更 容易 。 这 个 额外 的 任务 说 明了 隐藏 层 应 如 何 使 
用 ， 并 且 能 够 容 化 优化 问题 。 附 加 参数 被 引入 来 从 更 深 的 学 生 网 络 中 间 
层 去 回归 5 层 教 师 网 络 的 中 间 层 。 然 而 ， 访 目标 是 预 负 教师 网 络 的 中 间 
隐藏 屋 ， 并 非 预 测 最 终 分 类 目标 。 学 生 网 络 的 低层 因而 具有 两 个 目标 : 
帮助 学 生 网 络 的 输出 完成 其 目标 和 预测 教师 网 络 的 中 间 层 。 尺 管 一 个 罕 
而 深 的 网 络 似 乎 比 宽 而 浅 的 网 络 更 难 训 练 ， 但 宪 而 深 网 络 的 沁 化 能 力 可 
能 更 好 ， 并 用 如果 其 足够 军 ， 参 数 足 人 够 少 ， 那 么 其 计算 代价 更 小 。 没 有 
隐藏 层 的 提示 ， 学 生 网 络 在 训练 集 和 测试 集 上 的 实验 表现 都 很 产 。 因 而 
中 辐 层 的 提示 是 有 助 于 训练 很 难 训练 的 网 络 的 方法 之 一 ， 但 是 其 他 优化 
技术 或 是 架构 上 的 变化 也 可 能 解决 这 个 问题 。 


8.7.5 ”设计 有 助 于 优化 的 模型 


改进 优化 的 最 好 方法 并 不 总 是 改进 优化 算法 。 相 反 ， 深 度 模型 中 优化 的 
许多 改进 来 目 设计 多 于 优化 的 模型 。 


原则 上 ， 我 们 可 以 使 用 呈 锯 齿 非 单调 模式 上 上 下 下 的 激活 函数 ， 但 是 ， 
这 将 使 优化 极为 困难 。 在 实践 中 ， 选 择 一 族 容易 优化 的 模型 比 使 用 一 个 


ERRARE. MANAF OI FEW AOE IN A BOREL FE BOR 
自 改变 模型 族 ， 而 非 改 变 优化 过 程 。20 世 纪 80 年 代用 于 训练 神经 网 络 的 
市 动 星 的 随机 柳 度 下 降 ， 仍 然 是 现代 神经 网 络 应 用 中 的 前 治 算法 。 


具体 来 说 ， 现 代 神 经 网 络 的 设计 选择 体现 在 层 之 间 的 线性 变换 ， 几 乎 处 
处 可 导 的 激活 函数 ， 和 大 部 分 定义 域 都 有 明显 的 梯度 。 特 别 是 ， 创 新 的 
模型 ， 如 LSTM、 整 流 线 性 单元 和 maxout 单 元 都 比 先前 的 模型 (如 基于 
sigmoid 单 元 的 深度 网 络 ) 使 用 更 多 的 线性 函数 。 这 些 模 型 都 具有 人 简化 

优化 的 性 质 。 如 果 线 性 变换 的 jacobian 具 有 相对 合理 的 奇异 值 ， 那 么 梯 

度 能 够 流 经 很 多 层 。 此 外 ， 线 性 函数 在 一 个 方 同上 一 致 增加 ， 所 以 即使 
模型 的 输出 远离 正确 值 ， 也 可 以 简单 清晰 地 计算 梯度 ， 使 其 输出 方 同 随 
降低 损失 函数 的 方 同 移动 。 换 言 之 ， 现 代 神 经 网 络 的 设计 方案 则 在 使 其 
局 部 梯度 信息 合理 地 对 应 着 移 问 一 个 东 远 的 解 。 


其 他 的 模型 设计 嫁 略 有 助 于 使 优化 更 简单 。 例 如 ， 层 之 间 的 线性 路 径 或 
征 跳 跃 连接 减少 了 从 较 低 层 参数 到 输出 最 短路 径 的 长 度 ， 因 而 缓解 了 梯 
度 消 失 的 问题 (Srivastava et al. , 2015) 。 一 个 和 跳跃 连接 相关 的 想法 
征 添加 和 网 络 中 间 隐 茂 层 相连 的 得 出 的 哲 外 副本 ， 如 

GoogLeNet (Szegedy et al. , 2014a) 和 深度 监督 网 络 (Lee et al. , 

2014) 。 这 些 “ 辅 助兴 ”被 训练 来 执行 和 网 络 项 层 主要 输出 相同 的 任务 ， 

以 确保 压 层 网 络 能 够 接受 较 大 的 柳 度 。 当 训练 完成 时 ， 辅 助 头 可 能 被 丢 
茎 。 这 是 之 前 小 市 介绍 到 的 预 训 练 集 略 的 人 蔡 代 方法 。 以 这 种 方式 ， 我 们 
可 以 在 一 个 阶段 联合 训练 所 有 层 ， 而 不 改变 架构 ， 使 得 中 间 层 (特别 是 
低层 ) 能 够 通过 更 短 的 路 径 得 到 一 些 有 些 如 何 更 新 的 有 用 信息 。 这 些 信 
BARRE SRA S o 


8.7.6 LEIA MATE A 


正如 第 8.2.7 节 探讨 的 ， 许 多 优化 挑战 都 来 自 代 价 函数 的 全 局 结构 ， 不 能 
仪 通 过 局 部 更 新 方 回 上 更 好 的 估计 来 解决 。 解 决 这 个 问题 的 主要 方法 古 
笑 试 初始 化 参数 到 未 种 区 域内 ， 访 区域 可 以 通过 局 部 下 降 很 快 连接 到 参 
数 空间 中 的 解 。 


延 拓 法 (continuation method) 是 一 族 通 过 挑选 初始 点 使 优化 更 容易 的 
方法 ， 以 确保 局 部 优化 花费 大 部 分 时 间 在 表现 展 好 的 空间 。 延 拓 法 的 硼 
后 想法 是 构造 一 系列 具有 相同 参数 的 目标 函数 。 为 了 最 小 化 代价 范 数 


(JO... JOY, BATE RNR (O) 。 这 些 代价 函数 的 
难度 逐步 提高 ， 其 中 J O 是 最 容易 最 小 化 的 ，J 四 是 最 难 的 ， 真 正 的 代 
价 函数 驱动 整个 过 程 。 当 我 们 说 比 J (+D 更 容易 时 ， 是 指 其 在 更 多 的 
9 空间 上 表现 良好 。 随 机 初始 化 更 有 可 能 沙 入 局 部 下 降 可 以 成 功 最 小 化 
代价 函数 的 区 域 ， 因 为 其 良好 区 域 更 大 。 这 系列 代价 函数 设计 为 前 一 个 
解 是 下 一 个 的 良好 初始 点 。 因 此 ， 我 们 首先 解决 一 个 简单 的 问题 ， 然 后 
改进 解 以 解决 逐步 变 难 的 问题 ， 直 到 我 们 求解 真正 问题 的 解 。 


传统 的 延 拓 法 (用 于 神经 网 络 训练 之 前 的 延 拓 法 ) 通常 基于 平滑 目标 函 
数 。 庄 者 可 以 查看 Wu (1997) 了 解 这 类 方法 的 示例 ， 以 及 一 些 相关 方 
法 的 综述 。 延 拓 法 也 和 参数 中 加 入 噪声 的 模拟 退火 紧密 相关 
(Kirkpatrick et al. , 1983) 。 延 拓 法 在 最 近 几 年 非常 成 功 。 参 考 
Mobahi and Fisher (2015) 了 解 近 期 文献 的 概述 ， 特 别 是 在 AI 方面 的 应 
用 。 


传统 上 ， 延 拓 法 主要 用 来 元 服 局 部 极 小 值 的 问题 。 具 体 地 ， 它 被 设计 用 
来 在 有 很 多 局 部 极 小 值 的 情况 下， 求解 一 个 全 局 最 小 后。 这 些 连续 方法 
会 通过 “ 柑 糊 ”原来 的 代价 函数 来 构建 更 容易 的 代价 函数 。 这 些 模糊 操作 
可 以 是 用 采样 来 近似 


J (0) = Eyer aor O") (8.40) 


这 个 方法 的 下 党 是 有 些 非 凸 函数 在 模糊 后 会 近似 凸 的 。 在 许多 情况 下 ， 
这 种 模糊 保留 了 关于 全 局 极 小 值 的 足够 信息 ， 我 们 可 以 通过 逐步 求解 模 
糊 更 少 的 问题 来 求解 全 局 极 小 值 。 这 种 方法 有 三 种 可 能 失败 的 方式 。 痛 
先 ， 它 可 能 成 功 地 定义 了 一 连 串 代价 函数 ， 并 从 开始 的 一 个 是 函数 起 
(逐一 地 ) 沿 看 函数 链 最 佳 轨 迹 通 近 全 局 最 小 值 ， 但 可 能 需要 非常 多 的 
逐步 代价 图 数 ， 整 个 过 程 的 成 本 仍然 很 高 。 另 外 ， 即 使 延 拓 法 可 以 适 
用 ，NP-hard 的 优化 问题 仍然 是 NP-hard。 其 他 两 种 延 拓 法 失败 的 原因 是 
ANSE FQ FE, AN EPO, PRCT RTA, FE a es BA 

J(@) = _0 0 。 其 二 ， 函 数 可 能 在 模糊 后 是 凸 的 ， 但 模糊 函数 的 最 
小 值 可 能 会 人 奶 踪 到 一 个 局 部 最 小 值 ， 而 非 原 始 代 价 疯 数 的 全 局 最 小 值 。 
尽管 延 拓 法 最 人 切 用 来 解决 局 部 最 小 值 的 问题 ， 而 局 部 最 小 值 已 不 再 认为 


旦 神经 网 络 优化 中 的 主要 问题 了 。 笠 运 的 是 ， 延 拓 法 仍然 有 所 带 助 。 延 
拓 法 引入 的 简化 目标 函数 能 够 消除 平坦 区 域 ， 减 少 柳 度 估计 的 方 夺 ， 所 


局 Hessian 算 阵 的 条 件数 ， 使 局 部 更 新 更 容易 计算 ， 或 是 改进 局 部 更 新 方 
同 与 随同 全 局 解 方 同 之 则 的 对 应 关系。 


Bengio et al. (2009) 指出 被 称 为 课程 学 习 (curriculum learning) 或 者 
塑造 (shaping) 的 方法 可 以 被 解释 为 延 拓 法 。 谍 程 学 习 基 于 规划 学 习 
过 程 的 想法 ， 首 先 学 习 简 单 的 概念 ， 然 后 逐步 学 习 依 顿 于 这 些 人 简化 概念 
的 复杂 概念 。 之 前 这 一 基本 宁 略 被 用 来 加 速 动物 训练 过 程 (Skinner, 
1958; Peterson, 2004; Krueger and Dayan, 2009) AIPLAs= Whe 
(Solomonoff, 1989; Elman, 1993; Sanger, 1994) . Bengio et al. 
(2009) 验证 这 一 策略 为 延 拓 法 ， 通 过 增加 简单 样本 的 影响 《〈 通 过 分 配 
它们 较 大 的 系数 到 代价 函数 ， 或 者 更 频繁 地 采样 ) ， 先 前 的 J 1 会 变 得 
更 容易 。 实 验证 明 ， 在 大 规模 的 神经 语言 模型 任务 上 使 用 诬 程 学 习 ， 可 
以 获得 更 好 的 结果 。 课 程 学 习 已 经 成 功 应 用 于 大 量 的 自然 语言 
(Spitkovsky et al. , 2010; Collobert et al. , 2011a; Mikolov et al. , 
2011b; Tu and Honavar, 2011) 和 计算 机 视 党 〈Kumar et al. , 2010; 
Lee and Grauman, 2011; Supancic and Ramanan, 2013) {£4 E. WFE 
学 习 被 证 实 为 与 人 类 教学 方式 一 致 (Khan et al. , 2011) : 教师 刚 开始 
会 展示 更 容易 、 更 典型 的 示例 ， 然 后 帮助 学 习 者 在 不 太 显 然 的 情况 下 提 
GARTH. FEAR AEE, ETARE F Y MRK LEE TE ALY ORE AY 
RNS A, THRE He re HEARE (Basu and Christensen, 
2013) 。 


诬 程 学 习 研 究 的 男 一 个 重要 页 献 体现 在 训练 循环 神经 网 络 捕获 长 期 依 
i: Zaremba and Sutskever (2014) 发 现 使 用 随机 课程 获得 了 更 好 的 结 
果 ， 其 中 容易 和 困难 的 示例 混合 在 一 起 ， 随 机 提供 给 学 习 者 ， 更 难 示 例 
(这 些 具 有 长 期 依赖 ) 的 平均 比例 在 逐渐 上 升 。 有 共有 确定 性 诛 程 ， 没 有 
及 现 超过 基线 《完整 训练 集 的 普通 训练 ) 的 改进 。 


现在 我 们 已 经 介绍 了 一 些 基 本 的 神经 网 络 模型 ， 以 及 如 何 进 行 正 则 化 和 
优化 。 在 接 下 来 的 草 市 中 ， 我 们 转 同 特 化 的 神经 网 络 家 族 ， 人 允许 其 扩展 
到 能 够 处 理 很 大 规模 的 数据 和 具有 特殊 结构 的 数据 。 在 本 章 中 讨论 的 优 
A ， 退 第 丈 可 以 下 接 用 于 这 些 特 化 的 淋 
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5 FR PX] 2% (convolutional network) (LeCun, 1989) ， 也 叫 作 卷 积 神经 
网 络 (convolutional neural network, CNN) ， 是 一 种 专门 用 来 处 理 具有 
类 似 网 格 结构 的 数据 的 神经 网 络 。 例 如 时 间 序 列 数据 《〈 可 以 认为 是 在 时 
半 轴 上 有 规律 地 采样 形成 的 一 维 网 格 ) 和 图 像 数 据 《〈 可 以 看 作 二 维 的 像 
Za PAR) 。 卷 积 网 络 在 诸多 应 用 领域 都 表现 优异 。 “和 疮 积 神 经 网 络 ” 一 词 
表明 该 网 络 使 用 了 卷 积 〈convolution ) 这 种 数学 运算 。 眷 积 是 一 种 特殊 
的 线性 运算 。 卷 积 网 络 是 指 那些 至 少 在 网 络 的 一 层 中 使 用 郑 积 运算 来 将 
代 一 般 的 矩阵 乘法 运算 的 神经 网 络 。 


本 章 我 们 首先 说 明 什 么 是 郑 积 运算 ， 接 着 会 解释 在 神经 网 络 中 使 用 卷 积 
运算 的 动机 ， 然 后 会 介绍 池 化 (pooling) 。 池 化 是 一 种 几乎 所 有 的 卷 
只 网 络 都 会 用 到 的 操作 。 通 党 来 说 ， 吞 积 神 经 网 络 中 用 到 的 若 积 运算 和 
其 他 领域 〈 例 如 工程 领域 以 及 纯 数 学 领域 ) 中 的 定义 并 不 完全 一 致 。 我 
们 会 对 神经 网 络 实践 中 广泛 应 用 的 几 种 卷 积 函数 的 变 体 进 行 说 明 。 我 们 
也 会 说 明 如 何在 多 种 不 同 维 数 的 数据 上 使 用 着 积 运算 。 之 后 我 们 讨论 使 
得 知 积 运算 更 加 融 效 的 一 些 方法 。 车 积 网 络 是 神经 科学 原理 有 影 啊 深 友 学 
习 的 典型 代表 。 我 们 之 后 也 会 讨论 这 些 神 经 科学 的 原理 ， 并 对 知 积 网 络 
在 深 帮 学 习 发展 史 中 的 作用 做 出 评价 。 本 章 没 有 涉及 如 何 为 卷 积 网 络 选 
择 合适 的 结构 ， 因 为 本 章 的 目标 是 说 明 着 积 网 络 提供 的 各 种 工具 。 和 第 11 
章 将 会 对 如 何在 具体 环境 中 选择 使 用 相应 的 工具 给 出 通用 的 准则 。 对 于 
卷 积 网 络 结构 的 研究 进展 得 如 此 迅速 ， 以 至 于 针对 特定 基准 
(benchmark) ， 数 月 甚至 几 周 束 会 公开 一 个 新 的 最 优 的 网 络 结构 ， 其 
至 在 写 这 本 书 时 也 不 好 描述 完 竟 哪 种 结构 是 最 好 的 。 然 而 ， 最 好 的 结构 
也 是 由 本 章 所 接 述 的 基本 部 件 逐 步 搭建 起 来 的 。 


9.1 卷 积 运算 


在 通常 形式 中 ， 卷 积 是 对 两 个 实 变 函 数 的 一 种 数学 运算 山 。 为 了 给 出 卷 
只 的 定义 ， 我 们 从 两 个 可 能 会 用 到 的 函数 的 例子 出 肥 。 

假设 我 们 正在 用 激光 传 感 融 退 躁 一 艘 宇宙 飞船 的 位 半 。 我 们 的 激光 传 感 
名 给 出 一 个 里 独 的 输出 x(t) o KRFA KENAM. xtA E 
实 值 的 ， 这 意味 着 我 们 可 以 在 任意 时 刻 从 传感器 中 读 出 飞船 的 位 置 。 


现在 假设 我 们 的 传 感 大 受到 一 定 程度 的 噪声 干 拓 。 为 了 得 到 改 及 位 置 的 
低 噪 声 估计， 我 们 对 得 到 的 负 量 结束 进行 平均 。 蛙 然 ， 时 间 上 越 近 的 调 


量 结果 越 相 关 ， 所 以 我 们 采用 一 种 加 权 平 均 的 方法 ， 对 于 最 近 的 测量 结 
来 赋予 更 融 的 权 曾 。 我 们 可 以 采用 一 个 加 权 函 数 w(a) 来 实现 ， 其 中 a 表 
示 测 量 结 果 距 当前 时 刻 的 时 间 间 隔 。 如 果 我 们 对 任意 时 刻 都 采用 这 种 加 
权 平 均 的 操作 ， 束 得 到 了 一 个 新 的 对 于 飞 般 位置 的 平 消 估 计 孙 数 s: 


st) = J zow — a)da EAR 
XPa EER 〈convolution ) . 4R Go ay HE SK: 
S(t) = (2s ia (9.2) 


FEB BIS, wih Walzer SCE ZS BE RC, A a EES FB 
是 一 个 加 权 平 均 。 万 外 ， 在 参数 为 负 值 时 ，w 的 取信 必须 为 0， 人 否则 它 
会 预测 到 未 来 ， 这 不 是 我 们 能 够 推 市 得 了 的 。 但 这 些 限制 仅仅 是 对 我 们 
这 个 例子 来 说 。 通 明 ， 否 积 被 定义 在 满足 上 述 积 分 式 的 任意 函数 上 ， 并 
有 昌 也 可 能 锐 用 于 加 权 平 均 以 外 的 目的 。 


在 若 积 网 络 的 术语 中 ， 着 积 的 第 一 个 参数 在 这 个 例子 中 ， 孙 数 x) 通 
w HERA Cinput) ， 第 二 个 参数 (函数 w) 叫 作 核 函数 Ckernel 
function) 。 输 出 有 时 补 称 作 特 征 映 射 (feature map) 。 


在 本 例 中 ， 油 光 传 感 如 在 每 个 瞬间 有 反馈 测量 结果 的 想法 古人 不 切实 际 的 。 
一 般 来 讲 ， 妆 我 们 用 计算 机 处 理 数据 时 ， 时 间 会 被 离 秘 化 ， 传 感 上 莫 会 定 
HE SBT © AT PACE BATES BI, BACHE IRR ae BERD tt VR E 
朱 生 比较 现实 的 。 这 样 ， 时 刻 t 只 能 取 整 数值 。 如 末 假 设 xX 和 w 都 定义 在 
整数 时 刻 t 上 ， 束 可 以 定义 离 黎 形 式 的 奉 积 : 


Si = (ee wi) = Ss” xr(a)w(t — a) (9.3) 


a=— co 
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算法 优化 得 到 的 多 维 数组 的 参数 。 我 们 把 这 些 多 维 数组 叫 作 张 量 。 因 为 
在 输入 与 核 中 的 每 一 个 元 系 痢 必须 明确 地 分 开 和 存储 ， 我 们 退 第 假设 在 存 
储 了 数值 的 有 限 操 集 以 外 ， 这 些 函 数 的 值 痢 为 稚 。 这 意味 看 在 实际 操作 
中 ， 我 们 可 以 通过 对 有 限 个 数组 元 素 的 求 和 来 实现 无 限 求 和 。 
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维 的 图 像 I 作 为 输入 ， 我 们 也 许 也 想 要 使 用 一 个 二 维 的 核 K: 


S(i,j) = (I+ K)(i,j) = >》 >》 (m,n) K(i-— m,j — n) (9.4) 


卷 积 是 可 交换 的 《commutative ) ， 我 们 可 以 等 价 地 写作 : 


S(i,j) = (K * D(i,j) =>) > Ti -—m,j —n)K(m,n) (9.5) 
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但 范 围 相 对 较 小 。 


着 积 运算 可 交换 性 的 出 现 是 因为 我 们 将 核 相 对 输入 进行 了 翻转 

(flip〉， 从 m 增 大 的 角度 来 看 ， 输 入 的 索引 在 增 大 ， 但 是 核 的 索引 在 减 
小 。 我 们 将 核 翻 转 的 唯一 目的 是 实现 可 交换 性 。 尺 害 可 交换 性 在 证 明 时 
很 有 用 ， 但 在 神经 网 络 的 应 用 中 却 不 是 一 个 重要 的 性 质 。 与 之 不 同 的 
是 ， 许 多 神经 网 络 库 会 实现 一 个 相关 的 函数 ， 称 为 互相 关 男 数 Ccross- 
correlation) ， 和 郑 积 运算 几乎 一 样 但 是 并 没有 对 核 进行 翻转 : 


S(i,j) = (1* K) (i,j) = YY T(t mj +n) K(m,n) (9.6) 
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算法 所 学 得 的 核 ， 古 对 未 进行 翻转 的 算法 学 得 的 核 的 翻转 。 单 独 使 用 郑 
积 运 算 在 机 痊 学 习 中 是 很 少见 的 ， 卷 积 经 各 与 其 他 的 函数 一 起 使 用 ， 无 
论 谷 积 运 算是 否 对 它 的 核 进 行 了 翻转 ， 这 些 函 数 的 组 合 通 冲 是 不 可 交换 
的 。 


图 9.1 读 示 了 一 个 在 二 维 张 量 上 的 疮 积 运 算 《〈 疫 有 对 核 进行 翻 较 ) 的 例 
T. 





图 9.1 “SAE RRB OARA) 。 我 们 限制 只 对 核 完全 处 在 图 像 中 的 位 置 进 
行 输 出 ， 在 一 些 上 下 文中 称 为 “有 效 ” 苍 积 。 我 们 用 务 有 往 尖 的 盒子 来 说 明 输 出 张 量 的 左上 角 元 
素 是 如 何 通过 对 输入 张 量 相应 的 左上 角 区 域 应 用 核 进行 卷 积 得 到 的 


离散 疮 积 可 以 看 作 窍 阵 的 乘法 ， 然 而 ， 这 个 窍 阵 的 一 些 元 系 裤 限制 为 必 
须 和 另外 一 些 元 际 相 等 。 例 如 对 于 单 变 量 的 离散 卷 积 ， 算 阵 每 一 行 中 的 
元 和 聚 都 与 上 一 行 对 应 位 置 平 移 一 个 单位 的 元 聚 相同 。 这 种 窍 阵 叫 作 
Toeplitz 官 阵 (Toeplitz matrix) 。 对 于 二 维 情 况 ， 卷 积 对 应 看 一 个 双重 
分 块 循环 矩阵 (doubly block circulant matrix) 。 除 了 这 些 元 素 相 等 的 
限制 以 外 ， 若 积 通 第 对 应 看 一 个 非常 稀 璃 的 窍 阵 一 个 几乎 所 有 元 系 部 
NEWER) 。 这 是 因为 核 的 大 小 通 弟 要 远 小 于 输入 图 像 的 大 小 。 任 何 
一 个 使 用 和 矩阵 乘法 但 是 并 不 依赖 矩 隆 结构 的 特殊 性 质 的 神经 网 络 算法 ， 
孝 适 用 于 疮 积 运算 ， 并 且 不 需要 对 神经 网 络 做 出 大 的 修改 。 和 典型 的 卷 积 
神经 网 络 为 了 更 有 效 地 处 理 大 规模 和 输入， 确实 使 用 了 一 些 专 门 化 的 拉 
巧 ， 但 这 些 在 理论 分 析 方 面 并 不 是 严格 必要 的 。 


9.2 动机 


45 RAIS eI = “PS EE RR EL a HO AS: PAS H. 
(sparse interactions) ~ B2¢te5£ (parameter sharing) ~ FERIR 
(equivariant representations) 。 另 外 ， 卷 积 提供 了 一 种 处 理 大 小 可 变 的 
输入 的 方法 。 我 们 下 面 依次 介绍 这 些 思 想 。 


传统 的 神经 网 络 使 用 矩阵 乘法 来 建立 输入 与 输出 的 连接 关系 。 其 中 ， 参 
数 矩 阵 中 每 一 个 单独 的 参数 者 描述 了 一 个 输入 时 元 与 一 个 输出 单元 间 的 
交互 。 这 意味 着 每 一 个 输出 单元 与 每 一 个 输入 时 元 都 产生 交互 。 然 而 ， 
BAR AR A A ASA (sparse interactions) (tE YEE mEt 
(sparse connectivity) 或 者 稀疏 权重 (sparse weights) ) 的 特征 。 这 是 
使 核 的 大 小 远 小 于 输入 的 大 小 来 达到 的 。 举 个 例子 ， 当 处 理 一 张 图 像 
时 ， 输 入 的 图 像 可 能 包含 成 二 上 万 个 像 双 点 ， 但 是 我 们 可 以 通过 只 占用 
几 十 到 上 百 个 像 系 点 的 核 来 检测 一 些小 的 有 症 义 的 特征 ， 例 如 图 像 的 边 
绿 。 这 意味 看 我 们 需要 存储 的 参数 更 少 ， 不 仅 减 少 了 模型 的 存储 需求 ， 
还 提高 了 它 的 统计 效率 。 这 也 意味 着 为 了 得 到 得 出 我 们 只 需要 更 少 的 计 
算 量 。 这 些 效 率 上 的 提高 往往 是 很 最 闭 的 。 如 果 有 m 个 输入 和 n 个 输 

出 ， 那 么 矩阵 乘法 需要 mxn 个 参数 并 且 相 应 算法 的 时 间 复 杂 虚 为 OOmxn) 
(对 于 每 一 个 例子 ) 。 如 果 我 们 限制 每 一 个 输出 拥有 的 连接 数 为 k， 那 
么 稀 牙 的 连接 方法 只 需要 kxn 个 参数 以 及 O(kxm 的 运行 时 间 。 在 很 多 实 
际 应 用 中 ， 只 需 你 持 k 比 m 小 几 个 数量 级 ， 束 能 在 机 器 学 习 的 任务 中 取 
得 好 的 表现 。 稀 臣 连 接 的 图 形 化 解释 如 图 9.2 和 图 9.3 所 示 。 在 深度 益 积 
网 络 中 ， 处 在 网 络 深层 的 日 元 可 能 与 绝 大 部 分 输入 是 间接 交互 的 ， 如 图 
9.4 所 示 。 这 人 允许 网 络 可 以 通过 只 摘 述 稀 芷 交互 的 基石 来 高 效 地 描述 多 
个 变量 的 复杂 交互 。 





图 9.2 MRE, NEMA EEE. Bean S — AmA Ex 3 以 及 在 s 中 有 党 该 单元 影响 
的 输出 单元 。《〈 上 ) 当 s 有 是 由 核 宽度 为 3 的 孝 积 产生 时 ， 只 有 3 个 输出 有 党 到 x 的 影响 。《〈 下 ) Ss 
由 十 阵 乘法 产生 时 ， 连 接 不 再 是 稀 焉 的 ， 所 以 所 有 的 得 出 都 会 受到 x 3 的 影 啊 








图 9.3” 壬 距 连接 ， 对 每 幅 图 从 上 往 下 看 。 我 们 强调 了 一 个 输出 单元 s 3 以 及 x 中 影响 该 单元 的 输 
入 单元 。 这 些 单元 被 称 为 s 3 的 接受 域 (receptive field) 。 (CE) 当 s 是 由 核 宽 度 为 3 的 卷 积 产生 
时 ， 只 有 3 个 输入 影响 "3 。 “下 ) 当 s 是 由 算 阵 乘法 产生 时 ， 连 接 不 再 古稀 艳 的， 所 以 所 有 的 输 


入 部 会 影响 s 3 











图 9.4 SPEARS TRE HE cE ATT ERY ee SC a BR EA EE EY FP Be SZ EK oN 
条 网 络 还 包含 类 似 步 幅 卷 积 〈 见 图 9.12) REWE C93) 之 类 的 结构 特征 ， 这 种 效应 会 加 
强 。 这 意味 痢 在 吞 积 网 络 中 尽管 惠 接连 接 都 是 很 牧 蔗 的， 但 处 在 更 深 的 层 中 的 单元 可 以 间接 地 
连接 到 全 部 或 者 大 部 分 输入 图 像 


参数 共 盏 (parameter sharing) 是 指 在 一 个 模型 的 多 个 图 数 中 使 用 相同 
的 参数 。 在 传统 的 神经 网 络 中 ， 当 计算 一 层 的 输出 时 ， 权 重 和 矩阵 的 每 一 
个 元 系 只 使 用 一 次 ， 当 筷 乘 以 得 入 的 一 个 元 素 后 驶 再 也 不 会 用 到 了 。 作 
为 参数 共 圣 的 同义词 ， 我 们 可 以 说 一 个 网 络 含有 绑 定 的 权 和 草 (tied 
weights) ， 因 为 用 于 一 个 输入 的 权重 也 会 被 绑 定 在 其 他 的 权重 上 。 在 郑 
RIR, PKA BES AE EA WE Ge AE 
边界 像素 取决 于 对 边界 决策 的 设计 ) 。 卷 积 运 算 中 的 参数 共享 保证 了 我 
们 只 需要 学 习 一 个 参数 集合 ， 而 不 是 对 于 每 一 位 置 都 需要 学 习 一 个 单独 
的 参数 集合 。 这 虽然 没有 改变 前 回 传 播 的 运行 时 间 (仍然 是 O(kxn)) ， 

但 它 显 闭 地 把 模型 的 存储 需求 降低 至 k 个 参数 ， 并 日 k 通 常 要 比 m 小 很 多 
个 数量 级 。 因 为 m 和 n 通 钊 有 着 大 致 相同 的 大 小 ，k 和 在 实际 中 相对 于 mxn 
是 很 小 的 。 因 此 ， 卷 积 在 存储 需求 和 统计 效率 方面 极 大 地 优 于 稠密 矩阵 
的 乘法 运算 。 图 9.5 演 示 了 参数 共计 是 如 何 实现 的 。 














图 9.5 ”参数 共享 。 黑 色 箭头 表示 在 两 个 不 同 的 模型 中 使 用 了 特殊 参数 的 连接 。 (上 ) ERS 
表示 在 卷 积 模型 中 对 3 元 素 核 的 中 间 元 素 的 使 用 。 因 为 参数 共享 ， 这 个 单独 的 参数 被 用 于 所 有 的 
输入 位 置 。 (下 ) 这 个 单独 的 黑色 箭头 表示 在 全 连接 模型 中 对 权重 矩阵 的 中 间 元 素 的 使 用 。 这 
个 模型 没有 使 用 参数 共享 ， 所 以 参数 只 使 用 了 一 次 


作为 前 两 条 原则 的 一 个 实际 例子 ， 图 9.6 说 明 了 黎 焉 连 授 和 参数 共 蛙 是 
如 何 显 车 提高 线性 函数 在 一 张 图 像 上 进行 边缘 检 训 的 效率 的 。 





图 9.6 ” 边 经 检测 的 效率 。 石 边 的 图 像 是 通过 先 获得 原始 图 像 中 的 每 个 像 系 ， 然 后 减 去 左边 相 邻 
像素 的 值 而 形成 的 。 这 个 操作 给 出 了 输入 图 像 中 所 有 垂直 方向 上 的 边缘 的 蝇 度 ， 对 目标 检测 来 
次 是 有 用 的 。 两 个 图 像 的 高 度 均 为 280 个 像 隶 。 和 输入 图 像 的 宽度 为 320 个 像素 ， 而 输出 图 像 的 视 





BEA3Z19-MRA . IX AEH AY WI A PR OR Fae, EH a A A E319 280x3 = 
267 960 次 浮 点 运算 (每 个 输出 像素 需要 两 次 乘法 和 一 次 加 法 ) 。 为 了 用 和 矩阵 乘法 描述 相同 的 变 
换 ， 需 要 一 个 包含 320x280x319x280 个 或 者 说 超过 80 亿 个 元 系 的 窍 阵 ， 这 使 得 卷 积 对 于 表示 这 
种 变换 更 有 效 40 亿 倍 。 直 接 运 行 矩 阵 乘 法 的 算法 将 执行 超过 160 亿 次 浮 点 运算 ， 这 使 得 卷 积 在 计 
算 上 大 约 有 60 000 倍 的 效率 。 当 然 ， 和 矩阵 的 大 多 数 元 系 将 为 零 。 如 果 我 们 只 存储 矩阵 的 非 零 
元 ， 则 和 矩阵 乘法 和 卷 积 都 需要 相同 数量 的 浮 点 运算 来 计算 。 和 窍 阵 仍然 需要 包含 2x319x280 二 178 
640 个 元 素 。 将 小 的 局 部 区 域 上 的 相同 线性 变换 应 用 到 整个 输入 上 ， 卷 积 是 描述 这 种 变换 的 极其 
有 效 的 方法 。 照 片 来 源 : Paula Goodfellow 


对 于 敬 积 ， 参 数 共 至 的 特殊 形式 使 得 神经 网 络 层 具有 对 平移 等 变 
Cequivariance) 的 性 质 。 如 果 一 个 函数 满足 输入 改变 ， 输 出 也 以 同样 的 
方式 改变 这 一 性 质 ， 我 们 就 说 它 是 等 变 (equivariant) 的 。 特 别 的 是 ， 

如 果 函 数 f(x) 与 g(x) 满 足 f(g(x)) 二 g(f(x))， 我 们 就 说 f(x) 对 于 变换 g 具 有 等 
变性 。 对 于 卷 积 来 说 ， 如 果 令 g 是 输入 的 任意 平移 函数 ， 那 么 郑 积 图 数 
对 于 g 有 共有 等 变性 。 举 个 例子 ， 令 I 表 示 图 像 在 整数 坐标 上 的 亮度 图 数 ， 
g 表 示 图 像 国 数 的 变换 图 数 〈 把 一 个 图 像 函 数 映 射 到 另 一 个 图 像 函 数 的 
图 数 ) HS), RAPA RwA EI y= L-1, y) XAR GE 
TF EN BEM A So PA) WFR EAT FT LE TK PE HA Ji E 
ITERE ATS BU ER, SE TIE AT Ag BRA Jes FT ag HF AE R 
数 g 得 到 的 结果 是 一 样 的 GAS Ab HIN Ta) Re, RR aS 
积 可 以 得 到 一 个 由 输入 中 出 现 不 同 特征 的 时 刻 所 组 成 的 时 间 轴 。 如 果 我 
们 把 输入 中 的 一 个 事件 同 后 延 时 ， 在 输出 中 仍然 会 有 完全 相同 的 表示 ， 
只 是 时 间 延 后 了 。 图 像 与 此 类 似 ， 卷 积 产 生 了 一 个 二 维 映 射 来 表明 示 些 
特征 在 输入 中 出 现 的 位 置 。 如 果 我 们 移动 输入 中 的 对 象 ， 它 的 表示 也 会 
在 输出 中 移动 同样 的 量 。 当 处 理 多 个 输入 位 置 时 ， 一 些 作用 在 邻居 像 系 
的 函数 是 很 有 用 的 。 例 如 在 处 理 图 像 时 ， 在 知 积 网 络 的 第 一 层 进 行 图 像 
的 边缘 检测 是 很 有 用 的 。 相 同 的 边缘 或 多 或 少 地 散 洛 在 图 像 的 各 处 ， 上 所 
以 应 当 对 整个 图 像 进行 参数 共享 。 但 在 某 些 情况 下 ， 我 们 并 不 希望 对 整 
幅 图 进行 参数 共享 。 例 如 ， 在 处 理 已 经 通过 剪裁 而 使 其 居中 的 人 脸 图 像 
时 ， 我 们 可 能 想 要 提取 不 同位 置 上 的 不 同 特征 《处 理 人 脸 上 部 的 部 分 网 
络 需 要 去 搜寻 眉毛 ， 处 理 人 上 脸 下 部 的 部 分 网 络 就 需要 去 搜寻 下 巴 了 ) 。 


爷 积 对 其 他 的 一 些 变 换 并 不 是 天 然 等 变 的 ， 例 如 对 于 图 像 的 放 缩 或 者 旋 
转变 换 ， 需 要 其 他 的 一 些 机 制 来 处 理 这 些 变换 。 


最 后 ， 一 些 不 能 被 传统 的 由 《固定 大 小 的 ) 矩阵 乘法 定义 的 神经 网 络 处 
理 的 特殊 数据 ， 可 能 通过 疮 积 神经 网 络 来 处 理 ， 我 们 将 在 第 9.7 节 中 进 


行 讨论 。 





9.3 WM 


郑 积 网 络 中 一 个 典型 层 包 售 三 级 〈 见 图 9.7) 。 在 第 一 级 中 ， 这 一 层 并 
行 地 计 宽 多 个 知 积 产生 一 组 线性 油 活 啊 应 。 在 第 二 级 中 ， 每 一 个 线性 激 
活 啊 应 将 会 通过 一 个 非 线性 的 激活 函数 ， 例 如 整流 线性 激活 图 数 。 这 一 
级 有 时 也 被 称 为 探测 级 (detector stage) 。 在 第 三 级 中 ， 我 们 使 用 池 化 
Kt (pooling funciton) 来 进一步 调整 这 一 层 的 输出 。 


复杂 层 的 术语 人 简单 层 的 术语 


TE 


探测 层 : 非 线性 
例如 ， 整 流 线 性 


探测 级 ， 非 线性 
例如 ， 整 流 线 性 


丛 积 级 : 
仿 射 变换 


AEA Je: 
仿 射 变换 





层 的 输入 层 的 输入 


图 9.7 一 个 典型 卷 积 神经 网 络 层 的 组 件 。 有 两 组 弟 用 的 术语 用 于 摘 述 这 些 层 。“〈 左 ) 在 这 组 术 
语 中 ， 卷 积 网 络 被 视 为 少量 相对 复杂 的 层 ， 每 层 具 有 许多 “级 ”。 在 这 组 术语 中 ， 核 张 量 与 网 络 
层 之 间 存 在 一 一 对 应 关系 。 在 本 书 中 ， 我 们 通 向 使 用 这 组 术语 。《 右 ) 在 这 组 术语 中 ， 若 积 网 
络 人 被 视 为 更 多 数量 的 简单 层 ， 每 一 个 处 理 步 又 者 被 认为 是 一 个 独立 的 屋 。 这 童 味 看 不 是 每 
FE" aA BBL 


凶 化 函数 使 用 茶 一 位 置 的 相 邻 输出 的 总 体 统计 特征 来 代 符 网 络 在 该 位 置 
的 输出 。 例 如 ， 最 大 池 化 (max pooling) 函数 (Zhou and Chellappa, 

1988) 给 出 相 邻 矩形 区 域内 的 最 大 值 。 其 他 和 常用 的 池 化 函数 包括 相 邻 窍 
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入 的 表示 近似 不 变 Ginvariant) 。 平 移 的 不 变性 是 指 当 我 们 对 输入 进行 
少量 平移 时 ， 经 过 池 化 函数 后 的 大 多 数 输 出 并 不 会 友 生 改变 。 图 9.8 用 

了 一 个 例子 来 说 明 这 是 如 何 实现 的 。 局 部 平移 不 变性 是 一 个 很 有 用 的 性 
质 ， 无 其 是 当 我 们 关心 菏 个 特征 和 是 个 出 现 而 不 关心 它 出 现 的 具体 位 置 

时 。 例 如 ， 妆 判定 一 张 图 像 中 古人 否 包 含 人 脸 时 ， 我 们 并 不 十 要 知 间 眼睛 
的 狂 确 像 系 位 置 ， 我 们 只 需要 知 站 有 一 只 眼睛 在 脸 的 下 边 ， 有 一 只 在 右 
边 承 行 了 。 但 在 一 些 其 他 领域 ， 保 存 特征 的 具体 位 置 却 很 重要 。 例 如 当 
我 们 想 要 寻找 一 个 由 两 条 边 相 交 而 成 的 抛 角 时 ， 束 需要 很 好 地 你 存 边 的 
位 置 来 判定 它们 征 售 相交 。 
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图 9.8 ”最 大 池 化 引入 了 不 变性 。 CE) 卷 积 层 中 间 输 出 的 视图 。 下 面 一 行 显示 非 线 性 的 输出 。 
上 面 一 行 显示 最 大 池 化 的 输出 ， 每 个 池 的 需 度 为 三 个 像 系 并 且 池 化 区 域 的 步 幅 为 一 个 像 取 。 
CR) 相同 网 络 的 视图 ， 不 过 对 输入 右 移 了 一 个 像素 。 下 面 一 行 的 所 有 值 都 发生 了 改变 ， 但 上 
R06 0 
对 精确 的 位 置 


使 用 池 化 可 以 看 作 增 加 了 一 个 无 限 强 的 先 验 : 这 一 层 和 学 得 的 函数 必须 上 
有 对 少量 平移 的 不 变性 。 当 这 个 假 度 成 立时 ， 池 化 可 以 极 大 地 提高 网 络 








的 统计 效率 。 


对 空间 区 域 进 行 池 化 产生 了 平移 不 变性 ， 但 当 我 们 对 分 离 参数 的 符 积 的 
得 出 进行 池 化 时 ， 特 征 能 够 学 得 应 该 对 于 哪 种 变换 具有 不 变性 《“ 见 图 
9.9) .« 








大 的 啊 应 
出 现在 探 涡 
单元 1 


大 的 响应 
出 现在 探测 
单元 3 
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图 9.9 ”学 习 不 变性 的 示例 。 使 用 分 离 的 参数 学 得 多 个 特征 ， 再 使 用 池 化 单元 进行 池 化 ， 可 以 学 
得 对 输入 的 某 些 变 换 的 不 变性 。 这 里 我 们 展示 了 用 三 个 学 得 的 过 滤 右 和 一 个 最 大 池 化 单元 可 以 
学 得 对 旋转 变换 的 不 变性 。 这 三 个 过 滤 右 都 冒 在 检测 手写 的 数字 5。 每 个 过 滤 右 尝试 罗 配 稍微 不 
同方 回 的 5。 妆 输入 中 出 现 5 时 ， 相 应 的 过 滤器 会 匹配 它 并 且 在 探测 单元 中 引起 大 的 激活 。 然 
后 ， 无 论 哪个 探测 单元 被 激活 ， 最 大 池 化 单元 都 具有 大 的 油 活 。 我 们 在 这 里 演示 了 网 络 如何 处 
理 两 个 不 同 的 输入 ， 这 导致 两 个 不 同 的 探测 单元 被 激活 ， 然 而 对 池 化 单元 的 影响 大 致 相同 。 这 
个 原则 在 maxout 网 络 (Goodfellow etal., 2013b) 和 其 他 卷 积 网 络 中 更 有 影响 。 空 间 位 置 上 的 最 
大 池 化 对 于 平移 是 天 然 不 变 的 。 这 种 多 通道 方法 只 在 学 习 其 他 变换 时 是 必要 的 


因为 池 化 综合 了 全 部 邻居 的 反馈 ， 这 使 得 池 化 单元 少 于 探测 单元 成 为 可 
能 ， 我 们 可 以 通过 综合 池 化 区 域 的 k 个 像素 的 统计 特征 而 不 是 单个 像素 
来 实现 。 网 9.10 给 出 了 一 个 例子 。 这 种 方法 提高 了 网 络 的 计算 效率 ， 因 
为 下 一 层 少 了 约 k 倍 的 输入 。 当 下 一 层 的 参数 数目 是 关于 那 一 层 输入 大 
小 的 函数 时 《例如 当下 一 层 是 全 连接 的 基于 窍 阵 乘 法 的 网 络 层 时 ) ， 这 
人 














图 9.10” 带 有 降 采 样 的 池 化 。 这 里 我 们 使 用 最 大 池 化 ， 池 的 宽度 为 三 并 且 池 之 间 的 步 幅 为 二 。 
这 使 得 表示 的 大 小 减少 了 了 一半， 减轻 了 下 一 层 的 计算 和 统计 负担 。 注 意 到 最 右边 的 池 化 区 域 尺 
寸 较 小 ， 但 如 果 我 们 不 想 忽 上 略 一 些 探测 单元 ， 就 必须 包含 这 个 区 域 


在 很 多 任务 中 ， 池 化 对 于 处 理 不 同 大 小 的 输入 有 共有 重要 作用 。 例 如 我 们 

想 对 不 同 大 小 的 图 像 进行 分 类 时 ， 分 类 层 的 输入 必须 是 固定 的 大 小 ， 而 

这 通 第 通过 调整 池 化 区 域 的 俩 置 大 小 来 实现 ， 这 样 分 基层 总 是 能 接收 到 

相同 数量 的 统计 特征 而 不 官 最 急 的 输入 大 小 了 。 例 如 ， 最 终 的 池 化 层 可 

ee SS DS RE 
小 无 关 。 


一 些 理论 工作 对 于 在 不 同情 况 下 应 当 使 用 哪 种 池 化 函数 给 出 了 一 些 指 导 
(Boureau et al. , 2010) 。 将 特征 一 起 动态 地 池 化 也 是 可 行 的 ， 例 如 ， 
对 于 感 兴趣 特征 的 位 置 运行 聚 类 算法 (Boureau et al. , 2011) 。 这 种 方 
法 对 于 每 幅 图 像 产 生 一 个 不 同 的 池 化 区 域 集合 。 男 一 种 方法 是 先 学 习 一 

个 单独 的 池 化 结构 ， 再 应 用 到 全 部 的 图 像 中 (Jia et al. ，2012) . 


闻 化 可 能 会 使 得 一 些 利用 自 顶 同 下 信息 的 神经 网 络 结 构 变 得 复杂 ， 例 如 
玻 尔 兹 曼 机 和 目 编 公 右 。 这 些 问 题 将 在 本 书 第 3 部 分 当 我 们 过 到 这 些 类 
型 的 网 络 时 进一步 讨论 。 卷 积 玻 尔 兹 受 机 中 的 池 化 出 现在 第 20.6 节 。 一 
些 可 微 网 络 中 需要 的 在 字 化 单元 上 进行 的 类 逆 运 算 将 在 第 20.10.6 节 中 讨 
论 。 


图 9.11 给 出 了 一 些 使 用 甜 积 和 凶 化 操作 的 用 于 分 关 的 完整 佑 积 网 络 络 构 
的 例子 。 


矩阵 乘法 的 输出 : 
1000 个 单元 


变形 为 回 量 的 输出 : 


16384 个 单元 


步 幅 为 4 的 池 化 的 输出 : 


16x16x64 


softmax 的 输出 : 
1000 个 类 的 概率 


矩阵 乘法 的 输出 : 
1000 个 单元 


变形 为 向 量 的 输出 : 
576 个 单元 


池 化 为 3x3 网 格 的 输出 : 


3x3x 64 


平均 池 化 的 输出 : 
1x] x 1000 


卷 积 的 箱 出: 
16x16x1000 


步 幅 为 4 的 池 化 的 输出 : 
16x 16x 64 


卷 积 的 输出 十 


卷 积 的 输出 十 
ReLU:64x64x64 


卷 积 的 输出 十 
ReLU:64x64x64 


步 幅 为 4 的 池 化 的 
输出 : 64x64x64 


步 幅 为 4 的 池 化 的 
输出 ，64x64x64 


步 幅 为 4 的 池 化 的 输出 : 
64x64x64 


卷 积 的 输出 十 
ReLU: 256x256 x64 


卷 积 的 输出 十 
ReLU:256 x 256 x 64 


卷 积 的 输出 十 
ReLU:256 x 256 x 64 


输入 图 像 : 


256x 256x3 


输入 图 像 : 


2506x250x3 


输入 图 像 : 


250x250x3 





图 9.11 敬 积 网 络 用 于 分 类 的 结构 示例 。 本 图 中 使 用 的 上 其 体 步 幅 和 深度 并 不 建议 实际 使 用 ， 因 
为 它们 被 设计 得 非 营 线 以 适合 页 面 。 实 际 的 卷 积 网 络 还 冲冲 涉及 大 量 的 分 文 ， 不 同 于 这 里 为 科 
单 起 见 所 使 用 的 链 式 结构 。 左 ) 处 理 固 定 大 小 的 图 像 的 耸 积 网 络 。 在 卷 积 层 和 凶 化 层 几 层 交 
人 痊 之 后 ， 套 积 特征 映 冉 的 张 量 被 重新 变形 以 展 平 空 间 维度 。 网 络 的 其 余部 分 古 一 个 普通 的 前 馈 
HAIRA WOR ATA. CR) 处 理 大 小 可 变 的 图 像 的 卷 积 网 络 ， 但 仍 保持 全 连接 的 部 分 。 
该 网 络 使 用 具有 可 变 大 小 但 是 数量 固定 的 池 的 池 化 操作 ， 以 便 回 网络 的 全 连接 部 分 提供 固定 576 
个 单位 大 小 的 问 量 。“《〈 右 ) 没有 任何 全 连接 权重 层 的 郑 积 网 络 。 相 对 的 ， 了 最 后 的 夫 积 层 为 每 个 
类 输出 一 个 特征 映 册 。 该 模型 可 能 会 用 来 学 习 每 个 类 出 现在 每 个 空间 位 置 的 可 能 性 的 映 映 。 将 
特征 映 册 进行 平均 得 到 的 早 个 值 ， 提 供 了 顶部 softmax 分 类 此 的 变量 


9.4” 卷 积 与 池 化 作为 一 种 无 限 强 的 先 验 


回忆 一 下 第 5.2 市 中 先 验 概率 分 布 (prior probability distribution) 的 概 
仿 。 这 是 一 个 模型 参数 的 概 认 分布， 它 刻 男 了 我 们 在 看 到 数据 之 前 认为 

















什么 样 的 模型 是 合理 的 信和 食 。 


先 验 被 认为 是 强 或 者 弱 取 决 于 先 验 中 概 认 密度 的 集中 程度 。 界 和 完 验 具有 
较 疝 的 燃 值 ， 例 如 方 天 很 大 的 融 其 分布。 这样 的 先 验 允 诗 数据 对 于 参数 
的 改变 具有 或 多 或 少 的 目 由 性 。 强 先 验 具有 较 低 的 燃 值 ， 例 如 方 下 很 小 
的 高 斯 分 布 。 这 样 的 和 匈 验 在 决定 参数 最 终 取 信 时 起 看 更 加 积极 的 作用 。 


一 个 无 限 中 的 先 验 需要 对 一 些 参数 的 概率 置 零 并且 完 全 花 止 对 这 些 参数 
赋值 ， 无 论 数据 对 于 这 些 参 数 的 值 给 出 了 多 大 的 支持 。 


我 们 可 以 把 若 积 网 络 类 比 成 全 连接 网 络 ， 但 对 于 这 个 全 连接 网 络 的 权 睾 
有 一 个 无 限 强 的 完 验 。 这 个 无 限 强 的 完 验 是 议 一 个 隐藏 单 元 的 权 香 必须 
和 它 邻 导 的 权重 相同 ， 但 可 以 在 空间 上 移动 。 这 个 匈 验 也 要 求 除了 那些 
处 在 隐藏 单元 的 小 的 空间 连续 的 接受 域内 的 权重 以 外 ， 其 余 的 权重 都 为 
零 。 总 之 ， 我 们 可 以 把 卷 积 的 使 用 当 作 对 网 络 中 一 层 的 参数 引入 了 一 个 
无 限 强 的 完 验 概率 分 布 。 这 个 完 验 说 明了 该 层 应 该 学 得 的 尔 数 只 包含 局 
部 连接 关系 并 且 对 平移 具有 等 变性 。 类 似 地 ， 使 用 池 化 也 是 一 个 无 限 强 
iw: 每 一 个 单元 都 具有 对 少量 平移 的 不 变性 。 


当然 ， 把 郑 积 神经 网 络 当 作 一 个 具有 无 限 强 先 验 的 全 连接 网 络 来 实现 会 
导 公 极 大 的 计算 浪费 。 但 把 卷 积 神经 网 络 想 成 具有 无 限 强 先 验 的 全 连接 
网 络 可 以 帮助 我 们 更 好 地 洞 勾 和 登 积 神经 网 络 是 如 何 工 作 的 。 


其 中 一 个 关键 的 洞穴 是 郑 积 和 闻 化 可 能 导致 屎 拟 合 。 与 任何 其 他 先 验 奖 
似 ， 卷 积 和 池 化 只 有 当先 验 的 假设 合理 且 正 确 时 才 有 用 。 如 果 一 项 任务 
依赖 于 保存 精确 的 空间 信 上 县 ， 那 么 在 所 有 的 特征 上 使 用 池 化 将 会 增 大 训 
练 误 差 。 一 些 卷 积 网 络 结构 (Szegedy et al. , 2014a) 为 了 既 获 得 具有 
较 高 不 变性 的 特征 又 获得 当 平 移 不 变性 不 合理 时 不 会 导致 屎 拟 合 的 特 
征 ， 被 设计 成 在 一 些 通 道上 使 用 字 化 而 在 另 一 些 通道 上 不 使 用 。 当 一 项 
任务 涉及 要 对 输入 中 相隔 较 远 的 信息 进行 合并 时 ， 那 么 郑 积 所 利用 的 先 
Jar AY REAL AN IE HA S o 
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中 的 其 他 卷 积 模型 作为 比较 的 对 象 。 其 他 不 使 用 卷 积 的 模型 即使 我 们 把 
图 像 中 的 所 有 像 际 点 都 置换 后 依然 有 可 能 进行 和 学习。 对 于 许多 图 像 数 据 
集 ， 还 有 一 些 分 别 的 基准 ， 有 些 是 针对 那些 具有 置换 不 变性 

(permutation invariant) 并 且 必 须 通 过 学 习 发 现 拓 扑 结构 的 模型 ， 还 有 


一 些 是 针对 模型 设计 者 将 空间 关系 的 知识 植 入 了 它们 的 模型 。 
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详细 讨论 一 下 这 些 差 异 ， 并 且 对 神经 网 络 中 用 到 的 函数 的 一 些 重要 性 质 
进行 重点 次 明 。 


HI HEAMANA RER, RAE E Et H L NITEAR 
MER. REANA ANZII R Aee — AE, RE 
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取 多 种 类 型 的 特征 。 


为 外 ， 输 入 退 妾 也 不 仅仅 十 实 值 的 网 格 ， 而 是 由 一 系列 观测 数据 的 问 量 
构成 的 网 格 。 例 如 ， 一 幅 彩 色 图 像 在 每 一 个 像 妹 点 者 会 有 红 、 绿 、 是 三 
种 其 色 的 元 度 。 在 多 层 的 耸 积 网 络 中 ， 第 二 层 的 输入 是 第 一 层 的 和 输出， 
退 妾 在 每 个 位 首 包 含 多 个 不 同 大 积 的 输出 。 当 人 处理 图 像 时 ， 我 们 通 第 把 
巷 积 的 输入 输出 部 看 作 3 维 的 张 量 ， 其 中 一 个 过 引用 于 标明 不 同 的 通过 
(例如 红 、 绿 、 蝗 )， 故 外 两 个 宗 引 标明 在 每 个 通过 上 的 空间 坐标 。 软 
件 实现 通 第 使 用 批 处 理 模式 ， 所 以 实际 上 会 使 用 4 维 的 张 量 ， 第 4 维系 可 
用 于 标明 批 处 理 中 不 同 的 实例 ， 但 我 们 为 镜 明 起 见 这 里 忽略 批 处 理 过 
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定 保证 网 络 的 线性 运算 是 可 交换 的 。 只 有 当 其 中 每 个 运算 的 输出 和 输入 
上 其 有 相同 的 退 道 数 时 ， 这 些 多 退 退 的 运算 才 是 可 交换 的 。 


假定 我 们 有 一 个 4 维 的 核 张 量 K ， 它 的 每 一 个 元 素 是 天 ii 1， 表 示 输 出 
中 处 于 通道 i 的 一 个 单元 和 输入 中 处 于 通道 j 中 的 一 个 单元 的 连接 强度 ， 
并 且 在 输出 单元 和 输入 单元 之 间 有 k 行 ] 列 的 偏 置 。 假 定 我 们 的 输入 由 观 
测 数据 V 组 成 ， 它 的 每 一 个 元 素 是 V ijk ， 表 示 处 在 通道 中 第 j 行 第 k 列 
的 值 。 假 定 我 们 的 输出 Z 和 输入 V 有 具有 相同 的 形式 ， 如 果 输 出 Z 是 通过 
对 K FLV 进行 卷 积 而 不 涉及 翻转 K 得 到 的 ， 那 么 


rian = Vi fone ee oe (ILT) 


l.m,n 


这 里 对 所 有 的 1、m 和 mn 进 行 求 和 是 对 所 有 《在 求 和 式 中 ) APOC GK Be BS 
引 的 值 进 行 求 和 。 在 线性 代数 中 ， 同 量 的 索引 通明 从 1 开始 ， 这 就 是 上 
述 公式 中 -1 的 由 来 。 但 是 像 C 或 Python 这 类 编程 语言 索引 通 各 从 0 开始 ， 

这 使 得 上 述 公 式 可 以 更 加 简洁。 

我 们 有 时 会 硕 望 跳 过 核 中 的 一 些 位 置 来 降低 计算 的 开销 《相应 的 代价 是 
提取 特征 没有 先前 那么 好 了 ) 。 我 们 可 以 把 这 一 过 程 看 作对 全 卷 积 函数 
输出 的 下 采样 Cdownsampling) 。 如 果 只 想 在 输出 的 每 个 方 同 上 每 间隔 
s 个 像 双 进行 采样 ， 那 么 我 们 可 以 定义 一 个 下 采样 苍 积 函数 c 使 得 


Li j,k z c(K,V, SAT. Es >, [V ttem e-a, Kemal (9.8) 
l m,n 


我 们 把 s 称 为 下 采样 卷 积 的 步 幅 Cstride) . HAE AT URN EEN IA 
定义 不 同 的 步 幅 。 图 9.12 演 示 了 一 个 实例 。 


步 帆 郑 积 


图 9.12 ”市 有 步 幅 的 卷 积 。 在 这 个 例子 中 ， 我 们 的 步 幅 为 2。 CE) 在 单个 操作 中 实现 的 步 幅 为 
2 的 疮 积 。《〈 下 ) 步 幅 大 于 一 个 像素 的 否 积 在 数学 上 等 价 于 里 位 步 幅 的 苍 积 随后 降 及 样 。 显 然 ， 
涉及 降 采 样 的 两 步 法 在 计算 上 古 浪 颖 的 ， 因 为 它 计 算 了 许多 将 修 丢 芥 的 值 


在 任何 卷 积 网 络 的 实现 中 都 有 一 个 重要 性 质 ， 那 就 是 能 够 隐 含 地 对 输 
AV 用 零 进 行 填充 (ad) 使 得 它 加 宽 。 如 果 没 有 这 个 性 质 ， 表 示 的 宽 
度 在 每 一 层 束 会 缩减 ， 缩 减 的 幅度 是 比 核 少 一 个 像素 这 么 多 。 对 输入 进 
行 零 填 充 允 许 我 们 对 核 的 宽度 和 输出 的 大 小 进行 独立 的 控制 。 如 果 没 有 
零 填 序 ， 我 们 就 被 迫 面 临 二 选 一 的 局 面 ， 要 么 选择 网 络 空间 宽 虚 的 快速 
缩减 ， 要 么 选择 一 个 小 型 的 核 一 一 这 两 种 情境 都 会 极 大 得 限制 网 络 的 表 
示 能 力 。 图 9.13 给 出 了 一 个 例子 。 
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图 9.13 ”和 零 需 充 对 网 络 大 小 的 影响 。 考 夸 一 个 乔 积 网 络 ， 每 层 有 一 个 宽度 为 6 的 核 。 在 这 个 例子 
H, BO AME EAA, ATER aS TREE AS aD PZ A CE) 在 这 个 卷 积 网 络 
中 ， 我 们 不 使 用 任何 隐 售 的 零 填 充 。 这 使 得 表示 在 每 层 缩小 5 个 像 隶 。 从 16 个 像素 的 输入 开始 ， 
我 们 只 能 有 3 个 孝 积 层 ， 并 且 最 后 一 层 不 能 移动 核 ， 所 以 可 以 说 只 有 两 层 是 真正 的 疮 积 层 。 可 以 
通过 使 用 较 小 的 核 来 减缓 收 缩 速率 ， 但 是 较 小 的 核 表 示 能 力 不 足 ， 并 且 在 这 种 结构 中 一 些 收缩 
FED ATES. CO 通过 癌 每 层 添加 5 个 隐 舍 的 和 零 ， 我 们 防止 了 表示 随 深 度 收 缩 。 这 允许 我 们 
设计 一 个 任意 深 的 郑 积 网 络 


有 三 种 零 填充 设 定 的 情况 值得 注意 。 第 一 种 是 无 论 怎样 都 不 使 用 零 填 充 
的 极 病 情况， 并且 若 积 核 只 允许 访问 那些 图 像 中 能 够 完全 包含 整个 核 的 
位 置 。 在 MATLAB 的 术语 中 ， 这 称 为 有 效 (valid) 卷 积 。 在 这 种 情况 
T. Sate WY TARA BB ea A PAG I RA PRB, ES aT LH RA 
的 表示 更 加 规范 。 然 而 ， 输 出 的 大 小 在 每 一 层 都 会 缩减 。 如 果 输 入 的 图 
像 宽 度 是 m， 核 的 宽度 是 k， 那 么 输出 的 宽 虚 束 会 变 成 m-k+1。 如 果 郑 积 
核 非 党 大 ， 缩 减 率 会 非常 显 彰 。 因 为 缩减 数 大 于 0， 这 限制 了 网 络 中 能 
够 包 侣 的 郑 积 层 的 层 数 。 当 层 数 增 加 时 ， 网 络 的 空间 维 虚 最 终 会 缩减 到 
1x1， 这 种 情况 下 增加 的 层 就 不 可 能 进行 有 意义 的 郑 积 了 。 第 二 种 特殊 
的 情况 是 只 进行 足够 的 零 需 充 来 保持 输 出 和 输入 具有 相同 的 大 小 。 在 

MATLAB 的 术语 中 ， 这 称 为 相同 (same) 卷 积 。 在 这 种 情况 下 ， 只 要 
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使 得 第 三 种 极端 情况 产生 了 ， 在 MATLAB 中 称 为 全 (full) 卷 积 。 它 进 
行 了 足够 多 的 零 需 序 ， 使 得 每 个 像 陛 在 每 个 方 同 上 恰好 被 访问 kA, 
最 终 利 出 图 像 的 宽度 为 n+k-1。 在 这 种 情况 下 ， 输 出 像 系 中 芋 近 边界 的 
部 分 相 比 于 中 间 部 分 古 更 少 像 系 的 函数 。 这 将 导致 学 得 一 个 在 奉 积 特征 
了 映射 的 所 有 位 置 和 都 表现 不 错 的 单 核 更 为 困难 。 通 钊 零 需 苑 的 最 优 数量 
(对 于 测试 集 的 分 关 正 确 率 ) Mb CS AR” AH E BA” L REA 
位 置 。 


在 一 些 情况 下 ， 我 们 并 不 是 真 的 想 使 用 卷 积 ， 而 是 想 用 一 些 局 部 连接 的 
网 络 层 (LeCun，1986，1989) 。 在 这 种 情况 下 ， 我 们 的 多 层 感 知 机 对 
应 的 邻接 和 矩阵 是 相同 的 ， 但 每 一 个 连接 都 有 它 目 己 的 权重 ， 用 一 个 6 维 
的 张 量 W 来 表示 。W 的 索引 分 别 是 : 输出 的 通道 i， 输 出 的 行 j 和 列 k， 
输入 的 通道 1， 输 入 的 行 偏 置 m 和 列 偶 置 n。 局 部 连接 层 的 线性 部 分 可 以 
表示 为 


= 六 | (9.9) 


1770 .7 
这 有 时 也 被 称 为 非 共 享 卷 积 (unshared convolution) ， 因 为 它 和 具有 一 


个 小 核 的 离散 卷 积 运算 很 像 ， 但 并 不 横 跨 位 置 来 共享 参数 。 图 9.14 比 较 
了 局 部 连接 、 卷 积 和 全 连接 的 区 别 。 





图 9.14 ”局 部 连接 ， 卷 积 和 全 连接 的 比较 。 (上 ) 每 一 小 片 ( 接 受 域 ;有 两 个 像素 的 局 部 连接 
层 。 每 条 边 用 唯一 的 字母 标记 ， 来 显示 每 条 边 都 有 目 且 的 权重 参数 。〈 中 ) 核 宽度 为 两 个 像素 
的 郑 积 层 。 该 模型 与 局 部 连接 层 具 有 完全 相同 的 连接 。 区 别 不 在 于 哪些 单元 相互 交互 ， 而 在 于 
如 何 共 蛙 参 数 。 局 部 连接 层 没 有 参数 共 诗 。 正 如 用 于 标记 每 条 边 的 字 苹 重 复出 现 所 指示 的 ， 砍 
积 层 在 整个 输入 上 重复 使 用 相同 的 两 个 权重 。 (下 ) 全 连接 层 类 似 于 局 部 连接 层 ， 它 的 每 条 边 
邦 有 其 目 里 的 参数 (在 该 图 中 用 字母 明确 标记 就 太 多 了 ) 。 然 而 ， 它 不 具有 局 部 连接 层 的 连接 
受 限 的 特征 





























当 我 们 知道 每 一 个 特征 午 是 一 小 其 空间 的 函数 并 且 相 同 的 特征 不 会 出 现 
在 所 有 的 空间 上 时 ， 局 部 连接 层 是 很 有 用 的 。 例 如 ， 如 朱 想 要 辨 列 一 张 
图 卢 是 否定 人 脸 图 像 ， 我 们 只 需要 去 寻找 路 是 否 在 图 像 下 半 部 分 即 可 。 


使 用 那些 连接 被 更 进一步 限制 的 苍 积 或 者 局 部 连接 层 也 是 有 用 的 ， 例 


如 ， 限 制 每 一 个 输出 的 通道 i 仅 仅 是 输入 通道 ] 的 一 部 分 的 函数 时 。 实 现 
这 种 情况 的 一 种 通用 方法 是 使 输出 的 前 m 个 通道 仅仅 连接 到 输入 的 前 n 
个 通道 ， 输 出 的 接 下 来 的 m 个 通道 仅仅 连接 到 输入 的 接 下 来 的 n 个 通 

间 ， 以 此 类 推 。 图 9.15 给 出 了 一 个 例子 。 对 少量 通道 间 的 连接 进行 建 模 
允许 网 络 使 用 更 少 的 参数 ， 这 降低 了 存储 的 消耗 以 及 提高 了 统计 效率 ， 
并 且 减 少 了 前 同和 反问 传播 所 需要 的 计算 量 。 这 些 目 标的 实现 并 没有 减 
少 隐藏 单元 的 数目 。 
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图 9.15 FRK AIR AA E J A a FE, BE IAA J A 
的 两 个 输入 通过 相连 


FAAR (tiled convolution) (Gregor and LeCun, 2010a; Le etal. , 
2010) 对 吞 积 层 和 局 部 连接 层 进 行 了 折衷 。 这 里 并 不 是 对 每 一 个 空间 位 


置 的 权重 集合 进行 学 习 ， 我 们 学 习 一 组 核 使 得 当 我 们 在 空间 移动 时 它们 
可 以 循环 利用 。 这 意味 看 在 近邻 的 位 置 上 拥有 不 同 的 过 滤 蔡 ， 束 像 局 部 
连接 层 一 样 ， 但 是 对 于 这 些 参数 的 存储 需求 仅仅 会 增长 第 数 倍 ， 这 个 第 
数 殉 是 核 的 集合 的 大 小 ， 而 不 是 整个 输出 的 特征 映射 的 大 小 。 图 9.16 对 
局 部 连接 层 、 平 铺 郑 积 和 标准 知 积 进行 了 比较 。 








图 9.16 “局 部 连接 层 、 平 铺 卷 积 和 标准 卷 积 的 比较 。 当 使 用 相同 大 小 的 核 时 ， 这 三 种 方法 在 单 
元 之 间 具 有 相同 的 连接 。 此 图 是 对 使 用 两 个 像素 宽 的 核 的 说 明 。 这 三 种 方法 之 间 的 区 别 在 于 它 
们 如 何 共享 参数 。 (上 ) 局 部 连接 层 根本 没有 共享 参数 。 我 们 对 每 个 连接 使 用 唯一 的 字母 标 
记 ， 来 表明 每 个 连接 都 有 它 自身 的 权重 。 (中 ) 平 铺 卷 积 有 {个 不 同 的 核 。 这 里 我 们 说 明 t==2 的 
情况 。 其 中 一 个 核 具 有 标记 为 <a* 和 “b* 的 边 ， 而 另 一 个 具有 标记 为 <c*" 和 “d” 的 边 。 每 当 我 们 在 输 
出 中 右 移 一 个 像素 后 ， 我 们 使 用 一 个 不 同 的 核 。 这 意味 着 ， 与 局 部 连接 层 类 似 ， 输 出 中 的 相 邻 
单元 具有 不 同 的 参数 。 与 局 部 连接 层 不 同 的 是 ， 在 遍历 所 有 可 用 的 t 个 核 之 后 ， 我 们 循环 回 到 了 
第 一 个 核 。 如 果 两 个 输出 单元 间隔 t 个 步 长 的 倍数 ， 则 它们 共享 参数 。 (下 ) 传统 卷 积 等 效 于 t= 
1 的 平 铺 卷 积 。 它 只 有 一 个 核 ， 并 且 被 应 用 到 各 个 地 方 ， 我 们 在 图 中 表示 为 在 各 处 使 用 具有 标记 
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为 了 用 代数 的 方法 定义 平 铺 卷 积 ， 令 K 是 一 个 6 维 的 张 量 名-， 其 中 的 两 
维 对 应 着 输出 映射 中 的 不 同位 置 。K 在 这 里 并 没有 对 输出 映射 中 的 每 一 
个 位 置 使 用 单独 的 款 引 ， 和 输出 的 位 置 在 每 个 方向 上 在 t 修 不 同 的 核 组 成 
的 集合 中 进行 循环 。 如 琳 t 等 于 输出 的 宽度 ， 这 融 是 局 部 连接 层 了 。 


Zik -= X Viim- ikin- inumani (9.10) 
lrm,n 


这 里 白 分 号 是 取 模 运算 ， 它 的 性 质 包 括 t%t 二 0，(t+1)%t 二 1 每。 在 每 一 
维 上 使 用 不 同 的 t 可 以 很 容易 对 这 个 方程 进行 扩展 。 


局 部 连接 层 与 平 铺 若 积 层 都 和 最 大 池 化 有 一 些 有 趣 的 天 联 : 这 些 层 的 探 
测 单 元 都 是 由 不 同 的 过 滤器 驱动 的 。 如 果 这 些 过 滤器 能 够 学 会 探测 相同 
狠 台 特征 的 不 同 变 换 形 式 ， 那 么 最 大 池 化 的 单元 对 于 学 得 的 变换 融 具 有 
不 变性 《〈 见 图 9.9) 。 卷 积 层 对 于 平移 具有 内 置 的 不 变性 。 


实现 郑 积 网 络 时 ， 通 币 也 需要 除 郑 积 以 外 的 其 他 运算 。 为 了 实现 学 习 ， 
必须 在 给 定 输出 的 标 度 时 能 够 计算 核 的 梯度 。 在 一 些 人 简单 情 况 下 ， 这 种 
运 径 可 以 通过 苍 积 来 实现 ， 但 在 很 多 我 们 感 兴趣 的 情况 下 ， 包 括 步 幅 大 
于 1 的 情况 ， 并 不 具有 这 样 的 性 质 。 


回忆 一 下 ， 疮 积 是 一 种 线性 运算 ， 所 以 可 以 表示 成 矩 阵 乘 法 的 形式 《〈 如 
来 我 们 站 先 把 输入 张 量变 形 为 一 个 局 平 的 回 量 ) 。 其 中 包含 的 窍 阵 是 天 
于 郑 积 核 的 函数 。 这 个 窍 阵 是 黎 焉 的， 并且 核 的 每 个 元 妹 都 复制 给 定 阵 
的 多 个 元 系 。 这 种 观 后 能 够 帮助 我 们 导出 实现 一 个 否 积 网 络 所 十 的 很 多 
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其 他 运算 。 


通过 知 积 定义 的 矩阵 转 置 的 乘法 束 古 这 样 一 各 运算。 这 种 运算 用 于 在 卷 
只 层 反 同 传 播 误 乱 的 导数 ， 所 以 它 在 训练 多 于 一 个 隐藏 层 的 郑 积 网 络 时 
是 必要 的 。 如 采 我 们 想 要 从 隐 首 层 单元 重 构 可 视 化 单元 时 ， 同 样 的 运算 
也 是 需要 的 〈Simard et al., 1992) 。 重 构 可 视 化 单元 是 本 书 第 3 部 分 的 
模型 广泛 用 到 的 一 种 运算 ， 这 些 模 型 包括 目 编 码 右 、RBM 和 黎 玖 编码 
入。 构建 这 些 模 型 的 知 积 化 的 版 本 都 要 用 到 转 置 化 郑 积 。 类 似 核 梯 上 运 
和 沉 ， 这 种 输入 构 虐 运算 在 菜 些 情况 下 可 以 用 若 积 来 实现 ， 但 在 一 般 情 况 
下 需要 用 到 第 三 种 运算 来 实现 。 必 须 非 第 小 心地 来 使 这 种 转 置 运算 和 前 


问 传 播 过程 相 协调 。 转 置 运算 返回 的 输出 的 大 小 取 雇 于 三 个 方面 : 零 需 
充 的 策略 、 前 回 传播 运 算 的 步 幅 以 及 前 同 传 播 的 输出 映射 的 大 小 。 在 一 
些 情况 下 ， 不 同 大 小 的 输入 通过 前 同 传 播 过 程 能 够 得 到 相同 大 小 的 输出 
了 映射， 所 以 必须 明确 地 告知 转 置 运算 原始 输入 的 大 小 。 


这 三 种 运算 一 一 郑 积 、 从 输出 到 权重 的 反问 传播 和 从 输出 到 输入 的 反问 
传播 一 对 于 训练 任意 次 度 的 前 饶 关 积 网 络 ， 以 及 训练 市 有 基于 卷 积 
的 转 置 的 ) 重 构 函数 的 卷 积 网 络 ， 这 三 种 运算 都 足以 计算 它们 所 需 的 所 
GR. WFE- -RZE ZEAE TTAR, REE n A 
参考 Goodfellow (2010) 。 为 了 直观 说 明 这 些 公 式 是 如 何 起 作用 的 ， 我 
们 这 里 给 出 一 个 二 维 单 个 样 例 的 版 本 。 


假设 我 们 想 要 训练 这 样 一 个 卷 积 网 络 ， 它 包含 步 幅 为 s 的 步 幅 卷 积 ， 该 
耸 积 的 核 为 区 ， 作 用 于 多 通道 的 图 像 V ， 定 义 为 c(K Vs), WAA 
(9.8) 中 一 样 。 假 设 我 们 想 要 最 小 化 某 个 损失 函数 J(V ,K )。 在 前 同 传 
播 过 程 中 ， 我 们 需要 用 c 本 喘 来 输出 Z， 然 后 Z 传 递 到 网 络 的 其 余部 分 并 
且 被 用 来 计算 损失 函数 J。 在 反 辐 传播 过 程 中 ， 我 们 会 得 到 一 个 张 量 G 
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为 了 训练 网 络 ， 我 们 需要 对 核 中 的 权重 求 寻 。 为 了 实现 这 个 目的 ， 我 们 
可 以 使 用 一 个 函数 


g(G, V, 5)i j,k = JUN, RY = $B Wen Te (8.11) 


人 
如 采 这 一 层 不 是 网 络 的 辰 层 ， 我 们 需要 对 V 求 梯度 来 使 得 误差 进一步 反 
回 传 播 。 我 们 可 以 使 用 如 下 的 函数 

2 JUvV K (9.12) 


OV» sn 


-~ > F > Kiuma bala (9.13) 
q 


l,m n, p 


h(K, G, ET” = 





s.t. s.t. 
(lL—1)xs+m=j (n—1)xs+p=k 


第 14 章 描述 的 自 编码 器 网 络 ， 是 一 些 被 训练 成 把 输入 拷贝 到 输出 的 前 馈 
网 络 。 一 个 简单 的 例子 是 PCA 算 法 ， 将 输入 x 拷贝 到 一 个 近似 的 重 构 值 
r ， 通 过 函数 WT yy 来 实现 。 使 用 权重 矩阵 转 置 的 乘法 ， 就 像 PCA 


PIRX, TEA Balas Pe TR AL. Ay S EA ERRI EAR, 
我 们 可 以 用 函数 h 来 实现 郑 积 运算 的 转 置 。 假 定 我 们 有 和 Z 相同 形式 的 
隐藏 里 元 H ， 并 且 我 们 定义 一 种 重 构 运 算 


R = h(K,H, 5) (9.14) 


为 了 训练 目 编 码 占 ， 我 们 会 得 到 关于 R 的 梯度 ， 表 示 为 一 个 张 量 E 。 为 
SWANS as, BT BRT TK WERE, RO e(H E ,s) 来 得 到 。 

AS WARS as, Bm BRITA 的 梯度 ， 这 通过 c(K JE ,s) 来 得 
到 。 通 过 用 c 和 h 对 g 求 微分 也 是 可 行 的 ， 但 这 些 运算 对 于 任何 标准 神经 

网 络 上 的 反 回 传播 算法 来 说 都 是 不 需要 的 。 


一 般 来 说 ， 在 卷 积 层 从 输入 到 输出 的 变换 中 我 们 不 仅仅 只 用 线性 运算 。 
我 们 一 般 也 会 在 进行 非 线 性 运算 前 ， 对 每 个 输出 加 入 一 些 偏 置 项 。 这 样 
就 产生 了 如 何在 偏 置 项 中 共享 参数 的 问题 。 对 于 局 部 连接 层 ， 很 目 然 地 
对 每 个 单元 都 给 定 它 特有 的 人 往 置 ， 对 于 平 铺 卷 积 ， 也 很 自然 地 用 与 核 一 
样 的 平 铺 模 式 来 共享 参数 。 对 于 着 积 层 来 说 ， 通 党 的 做 法 是 在 输出 的 每 
一 个 通道 上 都 设置 一 个 偏 置 ， 这 个 偏 置 在 每 个 知 积 映 册 的 所 有 位 置 上 共 
译 。 然 而 ， 如 果 输 入 是 已 知 的 固定 大 小 ， 也 可 以 在 输出 映射 的 每 个 位 置 
学 习 一 个 单独 的 偏 置 。 分 离 这 些 偏 置 可 能 会 稍稍 降低 模型 的 统计 效率 ， 
但 同时 也 人 允许 模型 来 校正 图 像 中 不 同位 置 的 统计 差异 。 例 如 ， 当 使 用 隐 
ih an; 图 像 边缘 的 探测 单元 接收 到 较 少 的 输入 ， 因 此 需要 较 大 
J Aim E. o 


9.6 ”结构 化 输出 


卷 积 神经 网 络 可 以 用 于 输出 高 维 的 结构 化 对 象 ， 而 不 仅仅 是 预测 分 类 任 
务 的 类 标签 或 回归 任务 的 实数 值 。 通 常 这 个 对 象 只 是 一 个 张 量 ， 由 标准 
卷 积 层 产生 。 例 如 ， 模 型 可 以 产生 张 量 S ， 其 中 S ijx 是 网 络 的 输入 像素 
GO 属于 类 i 的 概率 。 这 允许 模型 标记 图 像 中 的 每 个 像素 ， 并 绘制 沿 
着 单个 对 象 轮廓 的 精确 掩 模 。 


经 第 出 现 的 一 个 问题 是 输出 平面 可 能 比 输入 平面 要 小 ， 如 图 9.13 上 所 示 。 

用 于 对 图 像 中 单个 对 象 分 类 的 常用 结构 中 ， 网 络 空 间 维 数 的 最 大 减少 来 
源 于 使 用 大 步 幅 的 池 化 层 。 为 了 产生 与 输入 大 小 相似 的 输出 映射 ， 我 们 
可 以 避免 把 池 化 放 在 一 起 (Jain etal. ，2007) 。 另 一 种 策略 是 单纯 地 产 


生 一 张 低 分 辨 率 的 标签 网 格 «(Pinheiro and Collobert, 2014, 2015) . ix 
后 ， 原 则 上 可 以 使 用 具有 单位 步 幅 的 季 化 操作 。 


对 图 像 逐 个 像素 标记 的 一 种 策略 是 先 产生 图 像 标 签 的 原始 猜测 ， 人 然后 使 
用 相 邻 像素 之 间 的 交互 来 修正 该 原始 猜测 。 重 复 这 个 修正 步骤 数 次 对 应 
于 在 每 一 步 使 用 相同 的 卷 积 ， 该 卷 积 在 深层 网 络 的 最 后 几 层 之 间 共 享 权 
重 (Jainetal., 2007) 。 这 使 得 在 层 之 则 共 诗 参数 的 连续 的 着 积 层 所 执 
行 的 一 系列 运算 ， 形 成 了 一 种 特殊 的 循环 神经 网 络 (Pinheiro and 
Collobert, 2014, 2015) 。 图 9.17 给 出 了 这 样 一 个 循环 卷 积 网 络 的 结 


图 9.17 ”用 于 像素 标记 的 循环 卷 积 网 络 的 示例 。 。 输 入 是 图 像 张 最 X， 它 的 轴 对 应 图 像 的 行 ， 列 和 
通道 ( 红 、 绿 、 蓝 ) 。 目 标 是 输出 标签 Y ， 它 遵循 每 个 像素 的 标签 的 概率 分 布 。 该 张 量 的 轴 
应 图 像 的 行 、 列 和 不 同类 别 。 人 RIE 
地 改善 其 估计 ， 而 不 是 单 次 输出 Y- a a H HHT ARAI 
愿 地 被 改善 任意 多 次 。 每 一 步 使 用 的 卷 积 核 张 量 U， 是 用 来 计算 给 定 输入 图 像 的 隐藏 表示 的 。 

核 张 量 V 用 于 产生 给 定 隐藏 值 时 标签 的 估计 。 除 了 第 一 步 之 外 ， 核 wW 都 对 Y 进行 卷 积 来 提供 隐 








基层 的 输入 。 在 第 一 步 中 ， 此 项 由 等 代 蔡 。 因 为 每 一 步 使 用 相同 的 参数 ， 所 以 这 是 一 个 人 循环 网 
络 的 例子 ， 如 第 10 章 所 述 


一 旦 对 每 个 像 系 都 进行 了 预测 ， 我 们 就 可 以 使 用 各 种 方法 来 进一步 处 理 
这 些 预 测 ， 以 便 获 得 图 像 在 区 域 上 的 分 割 (Briggman et al. ，2009; 
Turaga et al. , 2010; Farabet etal. , 2013) . 一般 的 想法 是 假设 大 厂 相 
连 的 像素 倾 癌 于 对 应 着 相同 的 标签 。 图 模型 可 以 描述 相 邻 像素 间 的 概率 
关系。 或 者 ， 苍 积 网 络 可 以 被 训练 来 最 大 化 地 近似 图 模型 的 训练 目标 
(Ning etal. , 2005; Thompson et al. , 2014) 。 


9.7 ”数据 类 型 


巷 积 网 络 使 用 的 数据 通 第 包含 多 个 通道 ， 每 个 通道 是 时 间 上 或 空间 中 茶 
一 反 的 不 同 观 测量 。 参 考 表 9.1 来 了 解 上 共有 不同 维 数 和 退 道 数 的 数据 类 
型 的 例子 。 





KIL 用 于 卷 积 网 络 的 不 同 数据 格式 的 示例 


一 ” 首 频 波形 : 卷 积 的 轴 对 应 于 时 间 。 我 骨架 动画 (skeleton 
维 们 将 时 间 离 散 化 并 且 在 每 个 时 间 点 测 animation〉 数 据 : 计算 机 这 
量 一 次 波形 的 振幅 染 的 三 维 角 色 动 画 是 通过 随 
时 间 调 整 “ 骨 架 ” 的 姿势 而 生 
成 的 。 在 每 个 时 间 点 ， 和 角色 
的 姿势 通过 骨架 中 的 每 个 天 
节 的 角度 来 接 述 。 我 们 输入 
到 郑 积 模型 的 数据 的 每 个 通 
轴 的 角度 
二 已 经 使 用 傅 里 叶 变 换 预 处 理 过 的 音频 “彩色 图 像 数 据 : 其 中 一 个 
维 数据 : 我 们 可 以 将 音频 波形 变换 成 二 通道 包含 红色 像素 ， 另 一 个 
维 张 量 ， 不 同 的 行 对 应 不 同 的 频率 ， 包 侣 绿色 像素 ， 最 后 一 个 包 
不 同 的 列 对 应 不 同 的 时 间 点 。 在 时 间 Gu ERR. FERRO 
轴 上 使 用 郑 积 使 模型 等 效 于 在 时 间 上 轴 和 竖 直 轴 上 移动 车 积 核 ， 
移动 。 在 频 深 轴 上 使 用 卷 积 使 得 模型 赋予 了 两 个 方 同 上 平移 等 变 


等 效 于 在 频率 上 移动 ， 这 使 得 在 不 同 性 
八 度 音阶 中 播放 的 相同 旋律 产生 相同 
的 表示 ， 但 处 于 网 络 输出 中 的 不 同 高 


RE 
= 体积 数据 : 这 种 数据 一 般 来 源 于 医学 ”彩色 视频 数据 : 其 中 一 个 
维 成 像 技 术 ， 例 如 CT 扫 摘 等 轴 对 应 看 时 间 ， 故 一 个 轴 对 


应 着 视频 帧 的 高 度 ， 最 后 一 
个 对 应 着 视频 帧 的 宽度 


车 积 网 络 用 于 视频 的 例子 ， 可 以 参考 Chen etal. (2010) 。 


到 目前 为 止 ， 我 们 仅 讨 论 了 训练 和 测试 数据 中 的 每 个 样 例 部 有 相同 的 空 
间 维 度 的 情况 。 疮 积 网 络 的 一 个 优点 是 它们 还 可 以 处 理 具 有 可 变 的 空间 
尺度 的 输入 。 这 些 类 型 的 输入 不 能 用 传统 的 基于 甜 阵 乘法 的 神经 网 络 来 
表示 。 这 为 苍 积 网 络 的 使 用 提供 了 令 人 信服 的 理由 ， 即 使 当 计算 开销 和 
过 拟 合 都 不 是 主要 问题 时 。 


例如 ， 考 处 一 组 图 像 的 集合 ， 其 中 每 个 图 像 具 有 不同 的 局 度 和 客 度 。 目 
前 还 不 清楚 如 何 用 固定 大 小 的 权 章 窍 阵 对 这 样 的 输入 进行 建 柑 。 苍 积 束 
可 以 很 卫 接 地 应 用 ; 核 依据 输入 的 大 小 条 单 地 被 使 用 不 同 次 ， 并 且 疮 积 
运算 的 输出 也 相应 地 放 缩 。 夫 积 可 以 被 视 为 算 阵 乘法 ; PATRI ERIA 
每 种 大 小 的 输入 引入 了 一 个 不 同 大 小 的 双 章 分 块 循环 窍 阵 。 有 时， 网 络 
的 输出 允 诗 和 输入 一 样 具有 可 变 的 大 小 ， 例 如 ， 如 来 我 们 想 要 为 输入 的 
每 个 像 系 分 配 一 个 闫 标 签 ， 在 这 种 情况 下 ， 不 需要 进一步 的 设计 工作 。 
在 其 他 情况 下 ， 网 络 必 须 产 生 一 些 固定 大 小 的 输出 ， 例 如 ， 如 来 我 们 想 
要 为 整个 图 像 指定 单个 闫 标签 ， 在 这 种 情况 下 ， 我 们 必须 进行 一 些 额外 
的 设计 步 又 ， 例 如 插入 一 个 池 化 层 ， 池 化 区 域 的 大 小 要 与 输入 的 大 小 成 
比例 ， 以 便 你 持 固 定数 量 的 池 化 输出 。 这 种 策略 的 一 些 例 子 可 以 参考 图 
9.11. 


FE Ash» BEAL AAA AT ARITA, DOTA ce ALA et Te PS 
的 不 同 量 的 观 穴 《时间 上 不 同 长 度 的 记录 ， 空 间 上 不 同 宽度 的 观察 等 ) 
而 导致 的 尺寸 变化 这 种 情况 才 有 意义 。 如 果 输 入 是 因为 它 可 以 选择 性 地 
包括 不 同 种 医 的 观察 而 具有 可 变 矿 寸 ， 使 用 合 积 是 不 合理 的 。 例 如 ， 如 
朱 我 们 正在 处 理 大 学 申请 ， 并 且 我 们 的 特征 包括 成 绩 等 级 和 标准 化 测试 
分 数 ， 但 不 是 每 个 申请 人 都 进行 了 标准 化 测试 ， 则 使 用 相同 的 权重 来 对 


成 绩 特征 和 测试 分 数 特征 进行 卷 积 是 没有 意义 的 。 
9.8 高效 的 卷 积 算法 


现代 苍 积 网 络 的 应 用 退 闸 需要 包含 超过 白 万 个 单元 的 网 络 。 利 用 并 行 计 
算 资 源 的 强大 实现 是 很 关键 的 ， 如 第 12.1 节 中 所 插 述 的 。 然 而 ， 在 很 多 
情况 下 ， 也 可 以 通过 选择 适当 有 的 大 积 算法 来 加 速 大 积 。 


巷 积 等 效 于 使 用 传 里 叶 变 换 将 输入 与 核 部 转换 到 频 域 、 执 行 两 个 信号 的 
未 扣 相 来 ， 骨 使 用 传 里 叶 逆 变换 转换 回 时 域 。 对 于 条 些 问 题 的 规模 ， 这 
PH LIA FY Re HE A eS PR AD ae SE ER 


当 一 个 d 维 的 核 可 以 表示 成 d 个 同 量 〈 每 一 维 一 个 同 量 ) 的 外 积 时 ， 访 核 
被 称 为 可 分 离 的 (separable〉。 妆 核 可 分 离 时 ， 村 又 的 着 积 是 低 效 的 。 
它 等 价 于 组 合 d 个 一 维 知 积 ， 每 个 知 积 使 用 这 些 同 量 中 的 一 个 。 组 合 方 
法 显 车 快 于 使 用 它们 的 外 积 来 执行 一 个 d 维 的 知 积 ， 并 有 晶 核 也 只 要 更 少 
的 参数 来 表示 成 回 量 。 如 果 核 在 每 一 维 都 是 w 个 元 系 宽 ， 那 么 朴 隶 的 多 
维 卷 积 需要 O(w 0% ) 的 运行 时 间 和 参数 存储 空间 ， 而 可 分 离 卷 积 只 需要 
O(wxd) 的 运行 时 间 和 参数 存储 空间 。 妆 然 ， 并 不 是 每 个 卷 积 都 可 以 表示 
成 这 种 形式 。 


设计 更 快 的 执行 大 积 或 近似 大 积 ， 而 不 损害 模型 准确 性 的 方法 ， 是 一 个 
活跃 的 研究 领域 。 其 至 仅 提 高 前 癌 传 播 效 率 的 技术 也 是 有 用 的 ， 因 为 在 
商业 环境 中 ， 通 种 部 署 网 络 比 训练 网 络 还 要 耗资 源 。 


9.9 ”随机 或 无 监督 的 特征 


通 单 ， 震 积 网 络 训练 中 最 昂 贯 的 部 分 是 学 习 特 征 。 输 出 层 的 计算 代价 通 
各 相对 不 高 ， 因 为 在 通过 在 干 层 池 化 之 后 作为 该 层 输入 的 特征 的 数量 较 
少 。 当 使 用 标 度 下 降 执 行 监督 训练 时 ， 每 步 梯 度 计 算 圾 要 完整 地 运行 整 
个 网 络 的 前 同 传 播 和 反 辐 传播 。 减 少 郑 积 网 络 训练 成 本 的 一 种 方式 是 使 
用 那些 不 是 由 监督 方式 训练 得 到 的 特征 。 


有 三 种 基本 策略 可 以 不 通过 监督 训练 而 得 到 疮 积 核 。 其 中 一 种 是 简单 地 
随机 初始 化 它们 。 画 一 种 是 于 动 设 计 它 们 ， 例 如 设置 每 个 核 在 一 个 特定 
的 方 问 或 太 度 来 从 训 边 缘 。 最 后 ， 可 以 使 用 无 监 千 的 标准 来 学 习 核 。 例 


Yl, Coates et al. (2011) 将 k 均 值 聚 类 算法 应 用 于 小 图 像 块 ， 然 后 使 用 
每 个 学 得 的 中 心 作 为 郑 积 核 。 本 书 第 3 部 分 摘 述 了 更 多 的 无 监督 学 习 方 

法 。 使 用 无 监督 的 标准 来 学 习 特 征 ， 人 允许 这 些 特征 的 确定 与 位 于 网 络 结 
构 项 层 的 分 类 层 相 分 离 。 然 后 只 需 提 取 一 次 全 部 训练 集 的 特征 ， 构 造 用 
于 最 后 一 层 的 新 训练 集 。 假 设 最 后 一 层 类 似 逸 辑 回 归 或 者 SVM， 那 么 学 
习 最 后 一 层 通 党 是 出 优 化 问题 。 


随机 过 小 需 经 间 在 益 积 网 络 中 表现 得 出 乎 意料 得 好 Jarrett et al. 
(2009b) ; Saxe et al. (2011) ; Pinto et al. (2011) ; Cox and 
Pinto (2011) . Saxe et al. (2011) 说 明 ， 由 卷 积 和 随后 的 池 化 组 成 的 
层 ， 当 赋予 随机 权 草 时 ， 目 然 地 变 得 上 共有 频率 选择 性 和 平移 不 变性 。 他 
们 认为 这 提供 了 一 种 廉价 的 方法 来 选择 郑 积 网 络 的 结构 : 首先 通过 仅 训 
练 最 后 一 层 来 评估 几 个 疮 积 网 络 结构 的 性 能 ， 然 后 选择 最 好 的 结构 并 使 
用 更 早 贯 的 方法 来 训练 整个 网 络 。 


一 个 中 同方 法 是 学 习 特 征 ， 但 是 使 用 那 种 不 需要 在 每 个 梯度 计算 步 又 中 
都 进行 完整 的 前 同和 反问 传播 的 方法 。 与 多 层 感 知 机 一 样 ， 我 们 使 用 仿 
心 逐 层 预 训练 ， 单 独 训 练 第 一 层 ， 然 后 一 次 性 地 从 第 一 层 提 取 所 有 特 

征 ， 之 后 用 那些 特征 单独 训练 第 二 层 ， 以 此 类 推 。 第 8 重 摘 述 了 如 何 实 
现 监督 的 贫 心 逐 层 预 训 练 ， 本 书 第 3 部 分 将 此 扩展 到 了 无 监督 的 范畴 。 

耸 积 模型 的 贫 心 逐 层 预 训练 的 经 典 模型 是 耸 积 深度 信念 网 络 〈Lee et al, 
，2009) 。 郑 积 网 络 为 我 们 提供 了 相对 于 多 层 感 知 机 更 进一步 采用 了 预 训 
练 案 上 略 的 机 会 。 并 非 一 次 训练 整个 车 积 层 ， 我 们 可 以 训练 一 小 块 模 型 ， 

束 像 Coates et al. (2011) 使 用 k 均 值 做 的 那样 。 然 后 ， 我 们 可 以 用 来 目 
这 个 小 块 模型 的 参数 来 定义 欠 积 层 的 核 。 这 意味 看 使 用 无 监督 学 习 来 训 
练 巷 积 网 络 并 且 在 训练 的 过 程 中 完全 不 使 用 苍 积 是 可 能 的 。 使 用 这 种 方 
法 ， 我 们 可 以 训练 非常 大 的 模型 ， 并 且 只 在 推导 期 间 产生 高 计算 成 本 

(Ranzato et al. , 2007c; Jarrett et al. , 2009b; Kavukcuoglu et al. , 
2010; Coates et al. , 2013) 。 这 种 方法 大 约 在 2007 一 2013 年 流行 ， 妆 
时 标记 的 数据 集 很 小 ， 并 且 计 算 能 力 有 限 。 如 今 ， 大 多 数 苍 积 网 络 以 纯 
粹 监督 的 方式 训练 ， 在 每 次 训练 迭代 中 使 用 通过 整个 网 络 的 完整 的 前 问 
和 反问 传播 。 


与 其 他 无 监督 预 训练 的 方法 一 样 ， 使 用 这 种 方法 的 一 些 好 处 仍然 难以 说 
消 。 无 监督 预 训练 可 以 所 供 一 些 相 对 于 监督 训练 的 正则 化 ， 或 者 它 可 以 
简单 地 允许 我 们 训练 更 大 的 结构 ， 因 为 它 的 学 习 规 则 降低 了 计算 成 本 。 


9.10 EFR 2 HY HS BE E ih 
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经 科学 。 


卷 积 网 络 的 历史 始 于 神经 科学 实验 ， 远 早 于 相关 计算 模型 的 发 展 。 为 了 
硝 定 基于 哺乳 动物 视 沉 系统 如 何 工 作 的 许多 最 基本 的 事实 ， 神 经 生理 学 
家 David Hubel 和 Torsten Wiesel 合 作 多 年 (Hubel and Wiesel，1959， 
1962, 1968) 。 人 他们 的 成 瓯 最 终 获 得 了 话 贝 尔 光 。 他 们 的 及 现 对 当代 这 
度 学 习 模 型 有 最 大 影 啊 的 是 基于 记录 猫 的 早 个 神经 元 的 活动 。 他 们 观察 
了 猎 的 脑 内 神经 元 如 何 啊 应 投影 在 猫 前 面 屏 徐 上 精确 位 置 的 图 像 。 他 们 
的 伟大 发 现 是 ， 处 于 视 党 系统 较为 前 面 的 神经 元 对 非常 特定 的 光 模 式 
(例如 精确 定 回 的 条 纹 ) 反应 最 强烈 ， 但 对 其 他 模式 几乎 完全 没有 反 
Mo 
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在 这 个 简化 的 视图 中 ， 我 们 关注 被 称 为 V1 的 大 脑 的 一 部 分 ， 也 称 为 初 
级 视觉 皮层 (primary visual cortex) 。V1 是 大 脑 对 视觉 输入 开始 执行 显 
著 高 级 处 理 的 第 一 个 区 域 。 在 该 草图 视图 中 ， 图 像 是 由 光 到 达 眼 睛 并 刺 
激 视网膜 〈 眼 睛 后 部 的 光敏 组 织 ) 形成 的 。 视 网 膜 中 的 神经 元 对 图 像 执 
行 一 些 简单 的 预 处 理 ， 但 是 基本 不 改变 它 被 表示 的 方式 。 然 后 图 像 通过 
视神经 和 称 为 外 侧 膝 状 核 的 脑 部 区 域 。 这 些 解剖 区 域 的 主要 作用 是 仅仅 
将 信号 从 眼睛 传递 到 位 于 头 后 部 的 V1. 


卷 积 网 络 层 被 设计 为 描述 V1 的 三 个 性 质 : 

(1) V1 可 以 进行 空间 映射 。 它 实际 上 具有 二 维 结构 来 反映 视网膜 中 的 
图 像 结 构 。 例 如 ， 到 达 视 网 腊 下 半 部 的 光 仅 影响 V1 相应 的 一 半 。 卷 积 
网 络 通 过 用 二 维 映 射 定义 特征 的 方式 来 摘 述 该 特性 。 

(2) V1 包 含 许多 简单 细胞 Csimple cell) 。 简 单 细 胞 的 活动 在 某 种 程 


RE ERY DHEA TEP 7) a) 25 M ERSE A RG HER BAR 
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(3) V1 还 包括 许多 复杂 细胞 (complex cell) 。 这 些 细 胞 啊 应 类 似 于 由 
简单 细胞 检测 的 那些 特征 ， 但 是 复杂 细胞 对 于 特征 的 位 置 徽 小 俩 移 具 有 
不 变性 。 这 局 发 了 卷 积 网 络 的 池 化 单元 。 复 杂 细 胞 对 于 照明 中 的 一 些 弯 
化 也 是 不 变 的 ， 不 能 简单 地 通过 在 空间 位 置 上 池 化 来 刻画 。 这 些 不 楼 性 
激发 了 卷 积 网 络 中 的 一 些 路 通道 池 化 策略 ， 例 如 maxout 单 元 

(Goodfellow etal. , 2013b) . 


里 然 我 们 最 了 解 V1， 但 十 一 般 认 为 相同 的 基本 原理 也 适用 于 视觉 系统 

的 其 他 区 域 。 在 视觉 系统 的 更 图 视图 中 ， 当 我 们 逐渐 深入 大 脑 时 ， 遵 循 
闻 化 的 基本 探 圳 案 略 被 反复 执行 。 当 穿 过 大 脑 的 多 个 解放 层 时 ， 我 们 最 
终 找到 了 啊 应 一 些 特定 概念 的 细胞 ， 并 且 这 些 细 胞 对 输入 的 很 多 种 变换 
部 具有 不 变性 。 这 些 细胞 被 昵称 为 “得 母 细胞 ”一 一 这 个 想法 是 一 个 人 可 
能 有 一 个 神经 元 ， 当 看 到 他 祖母 的 赂 请 时 该 神经 元 被 激活 ， 无 论 祖 母 是 
出 现在 照 记 的 左边 或 右边 ， 无 论 照 厂 是 她 脸 部 的 特写 镜头 还 是 她 的 全 喘 
RA, TC Ye mR AR Et sh ce aa A SESE 


X EG FA BE AH Hf AS A EB SE OA, TERRA PY AU BY 
Xk (Quiroga et al. , 2005) . WRA UMN T PAHA oe ASM DY 
名 人 的 照片 。 他 们 发 现 了 后 来 被 称 为 “Halle Berry 神 经 元 ”的 神经 元 : 由 
Halle Berry 的 概念 激活 的 单个 神经 元 。 当 一 个 人 看 到 Halle Berry Hy fg 
Fr. Halle Berry 的 网 男 甚至 包含 单词 "Halle Berry” 的 文本 时 ， 这 个 神经 
TE ih. “498, X BHalle Berry 本 人 无 天， 其 他 神经 元 会 对 Bill 
Clinton, Jennifer Aniston 等 人 的 出 现 做 出 啊 应 。 


这 些 内 侧 显 叶 神 经 元 比 现代 卷 积 网 络 更 通用 一 些 ， 这 些 网 络 在 读 取 名 称 
时 不 会 自动 联想 到 识别 人 或 对 象 。 与 卷 积 网 络 的 最 后 一 层 在 特征 上 最 接 
近 的 类 比 是 称 为 里 下 皮质 UT) 的 脑 区 。 当 碍 看 一 个 对 象 时 ， 信 息 从 视 
网 膜 经 LGN 流 到 V1， 然 后 到 V2、V4， 之 后 是 IT。 这 发 生 在 次 见 对 象 的 
前 100ms 内 。 如 果 人 允许 一 个 人 继续 观察 对 象 更 多 的 时 间 ， 那 么 信息 将 开 
台 回 流 ， 因 为 大 脑 使 用 自 上 而 下 的 反馈 来 更 新 较 低 级 脑 区 中 的 激活 。 然 
而 ， 如 果 我 们 打 断 人 的 注视 ， 并 且 只 观察 前 100ms 内 的 大 多 数 前 向 激活 
导致 的 放电 率 ， 那 么 开 被 证 明 与 卷 积 网 络 非 名 相似 。 卷 积 网 络 可 以 预测 
IT 放电 率 ， 并 且 在 执行 对 象 识 别 任务 时 与 人 类 〈 时 间 有 限 的 情况 ) 非常 





类 似 (DiCarlo, 2013) 。 


话 虽 如 此 ， 疮 积 网 络 和 哺乳 动物 的 视 涡 系统 之 间 偿 定 有 许多 区 别 。 这 些 
区 别 有 一 些 是 计算 神经 科学 家 所 熟知 的 ， 但 超出 了 本 书 的 范围 。 偿 有 一 
些 区 列 尚 未 知晓 ， 因 为 天 于 哺乳 动物 视觉 系统 如 何 工作 的 许多 基本 问题 
仍 未 得 到 回答 。 简 要 列表 如 下 : 


AAR AEB OD ESE HS ERA OP EB RS ARR ARIE] Covea) 
Dhik. FPR UES TE FBR BSA RE AZ) AY Xk R 
PRIA ons A Co WA BI a or ER AE a ee, (EE A 
RTENE NE mw, AA EES” SEATS WAT) KE. 
KB BABAR P28 SE EPEC ep ERR ETAT A 2 AKR 
脑 控 制 几 次 眼 动 ， 称 为 扫 视 = Csaccade) , LAM Wig se ae AR AY 
或 任务 相关 的 部 分 。 将 类 似 的 注意 力 机 制 融 入 深度 学 习 模 型 是 一 个 
活跃 的 研究 方 回 。 在 深度 学 习 的 背景 下 ， 注 意 力 机 制 对 于 目 然 语言 
处 理 是 最 成 功 的 ， 参 考 第 12.4.5.1 节 。 研 究 者 已 经 研发 了 几 种 具有 
视觉 机 制 的 视 沉 模型， 但 到 目前 为 止 还 没有 成 为 主导 方法 
(Larochelle and Hinton, 2010; Denil etal. , 2012) 。 

AK MERREN S ERER, Aa E, ARIARI OT 
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人 类 视觉 系统 不 仅仅 用 于 识别 对 象 。 它 能 够 理解 整个 场景 ， 包 括 许 
多 对 象 和 对 象 之 间 的 关系 ， 以 及 处 理 我 们 的 里 体 与 世界 交互 所 需 的 
丰富 的 三 维 几何 信息 。 卷 积 网 络 已 经 应 用 于 这 些 问题 中 的 一 些 ， 但 
是 这 些 应 用 还 处 于 起 步 阶 段 。 

即使 像 V1 这 样 简 单 的 大 脑 区 域 也 受到 来 目 较 高 级 别 的 反馈 的 严重 
影响 。 上 友 馈 已 经 在 神经 网 络 模型 中 被 广泛 地 探索 ， 但 还 没有 被 证 明 
提供 了 引 人 注 目的 改进 。 

里 然 前 馈 开 放电 频 识 刻画 了 与 车 积 网 络 特 征 很 多 相同 的 信息 ， 但 是 
仍 不 清楚 中 辐 计 算 的 相似 程度 。 大 脑 可 能 使 用 非常 不 同 的 沿 活 和 池 
化 函数 。 蛙 个 神经 元 的 疝 活 可 能 不 能 用 蛙 个 线性 过 渡 鼎 的 啊 应 来 很 
好 地 表征 。 最 近 的 V1 模型 涉及 对 每 个 神经 元 的 多 个 二 次 过 滤器 
(Rust etal. , 2005) 。 事 实 上 ， 我 们 的 “ 简 早 细胞 ”和 “ 复 林 细胞 ”的 
草图 图 片 可 能 并 没有 区 别 ; 简单 细胞 和 复杂 细胞 可 能 是 相同 种 类 的 
细胞 ， 但 是 它们 的 “参数 ”使 其 能 够 实现 从 我 们 所 说 的 “简单 ”到 “ 复 
AL” WIEBE AAT A 


还 值得 一 提 的 是 ， 神 经 科学 很 少 告诉 我 们 该 如 何 训练 知 积 网 络 。 具 有 中 
多 个 空间 位 置 的 参数 共 至 的 模型 结构 ， 可 以 奶 济 到 早期 天 于 视 交 的 联结 
主义 模型 (Marr and Poggio, 1976) ， 但 是 这 些 模 型 没有 使 用 现代 的 反 
向 传播 算法 和 梯度 下 降 。 例 如 ， (Fukushima, 1980) 结合 了 现代 卷 积 
网 络 的 大 多 数 模 型 结构 设计 元 素 ， 但 依赖 于 层次 化 的 无 监督 聚 类 算法 。 


Lang and Hinton (1988) 引入 反 回 传播 来 训练 时 延 神经 网 络 (time 
delay neural network, TDNN) 。 使 用 当代 术语 来 说 ，TDNN 是 用 于 时 间 
序列 的 一 维 耸 积 网 络 。 用 于 这 些 模型 的 反 同 传播 不 受 任 何 神 经 科学 观察 
的 局 及 ， 并 且 被 一些 人 认为 是 生物 不 可 信 的 。 在 基于 使 用 反 回 传播 训练 
的 TDNN 成 功 之 后 ，LeCun et al. (1989) 通过 将 相同 的 训练 算法 应 用 于 
图 像 的 二 维 知 积 来 肥 展 现代 若 积 网 络 。 


到 目前 为 止 ， 我们 已 经 描述 了 人 简 蛙 细胞 对 于 茶 些 特征 是 如 何 呈 现 粗 略 的 
线性 和 选择 性 ， 复 杂 细 胞 是 如 何 更 加 非 线 性 ， 并 且 对 于 这 些 徐 单 细胞 特 
征 的 茶 些 变换 其 有 不 变性 ， 以 及 在 选择 性 和 不 变性 之 间 交 蔡 放 置 的 层 可 
以 产生 对 非 第 特定 现象 的 祖母 细胞 。 我 们 还 没有 精确 摘 述 这 些 单个 细胞 
检测 到 了 什么 。 在 这 度 非 线性 网 络 中 ， 可 能 难以 理解 单个 细胞 的 功能 。 
第 一 层 中 的 简单 细胞 相对 更 容易 分 析 ， 因 为 它们 的 啊 应 由 线性 函数 驱 
动 。 在 人 工 神 经 网 络 中 ， 我 们 可 以 直接 显示 卷 积 核 的 图 像 ， 来 得 看 卷 积 
层 的 相应 通道 是 如 何 啊 应 的 。 在 生物 神经 网 络 中 ， 我 们 不 能 访问 权重 本 
号 。 相 反 ， 我 们 在 神经 元 目 且 中 放置 一 个 电极 ， 在 动物 视网膜 前 显示 几 
个 日 喉 声 图 像样 本 ， 并 记录 这 些 样 本 中 的 每 一 个 是 如 何 导 致 神 经 元 籼 活 
的 。 然 后 ， 我 们 可 以 对 这 些 啊 应 拟 合 线性 模型 ， 以 获得 近似 的 神经 元 权 
重 。 这 种 方法 被 称 为 反问 相关 (reverse correlation) (Ringach and 
Shapley, 2004) . 


SAAR a ISH, Ae BI V1 A Gabor es) 2 (Gabor 
function) 所 摘 述 的 权重 。Gabor 函 数 描述 在 图 像 中 的 二 维 点 处 的 权 醒 。 
我 们 可 以 认为 图 像 是 二 维 坐 标 I(x,y) 的 函数 。 类 似 地 ， 我 们 可 以 认为 简 
单 细 胞 是 在 图 像 中 的 一 组 位 置 采 样 ， 这 组 位 置 由 一 组 x 坐 标 XX 和 一 组 y 
MARY 来 定义 ， 并 且 使 用 的 权重 wCxy) 也 是 位 置 的 函数 。 从 这 个 观点 
来 看 ， 人 简单 细胞 对 于 图 像 的 啊 应 由 下 式 给 出 


= > w(2,y)I(a,y) (9.15) 


TEX YEY 


PA th, w(x, y) H Gaboresi AZ sk: 


w(x, Y; &, Bx, By, f, $, £0, Y0, T) = aexp(—B,2"" — Byy”) cos(fa' + ¢) (9.16) 
其 中 

y = —(x — xo) sin(T) + (y — yo) cos(T) (9.18) 
以 及 

= (9.17) 
Ho, By. By. f @ Xos Yo. THEE Gabor ATE ANS BL. 


图 9.18 给 出 了 Gabor 函 数 在 不 同 参数 集 上 的 一 些 例子 。 
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图 9.18 ”具有 各 种 参数 设置 的 Gabor 函 数 。 和 白色 表示 绝对 值 大 的 正 权 重 ， 黑 色 表 示 绝 对 值 大 的 负 
权重 ， 背 景 灰 色 对 应 于 零 权 重 。〈 左 ) 控制 坐标 系 的 参数 具有 不 同 值 的 Gabor 函 数 ， 这 些 参数 包 
th: X0、y0 和 y。 在 该 网 格 中 的 每 个 Gabor 函 数 被 赋予 和 它 在 网 格 中 的 位 置 成 比例 的 x go My 0 
的 值 ， 并 且 t 被 选择 为 使 得 每 个 Gabor 过 滤器 对 从 网 格 中 心 辐射 出 的 方向 非常 敏感 。 对 于 其 他 两 
WE, xg. yoMyHleNS. CH) 具有 不 同 高 斯 比例 参数 B x 和 B y 的 Gabor 函 数 。 当 我 们 从 
左 到 右 通 过 网 格 时 ，Gabor 函 数 补 设置 为 增加 宽度 〈 减 少 px ) ; 当 我 们 从 上 到 下 通过 网 格 时 ， 
Gabor PA X AHS BE ORDB y ) 。 对 于 其 他 两 幅 图 ，B 值 固定 为 图 像 宽度 的 1.5 倍 。 
(A) 具有 不 同 的 正弦 参数 f 和 q@ 的 Gabor 函 数 。 当 我 们 从 上 到 下 移动 时 ，f 增 加 ;， 当 我 们 从 左 到 
右 移 动 时 ，q 增 加 。 对 于 其 他 两 幅 图 ，gq 回 定 为 0，f 国 定 为 图 像 宽 度 的 5 倍 


参数 x on yo 和 Tt 定义 坐标 系 。 我 们 平移 和 旋转 x 和 y 来 得 全 x' 和 y'’。 具 体 
简单 细胞 会 啊 应 以 点 (Xxo，y0) 为 中 心 的 图 像 特征 ， 并 且 当 我 们 沿 看 
从 水 平方 同 旋 转 t 弧 上 度 的 线 移 动 时 ， 简 捍 细胞 将 啊 应 膨 度 的 变化 。 


作为 x' 和 y' 的 函数 ， ee cae SN ax BIN CREAR. EA 
两 个 重要 的 因 了 于 : “PS TPR, FN EAR GE ER BL 


上 是 高 斯 





ey Tl Foexp(-B, x 4 -By y ~ ALAA, H T Pek fal AL 
对 接近 X 和 y 痢 为 零点 处 的 值 啊 应 ， 换 句 话 说， 接近 细胞 接受 域 的 中 

心 。 尺 度 因子 a 调整 简单 细胞 啊 应 的 忌 的 量 级 ， 而 B、 和 B y 控制 接受 域 消 
退 的 速度 。 


余弦 因子 cos(fx'+g) 控 制 简单 细胞 如 何 响应 延 X 轴 的 亮度 改变 。 参 数 f 控 
制 余弦 的 频率 ，gq 控 制 它 的 相位 偏 移 。 


合 在 一 起 ， 人 简单 细胞 的 这 个 章 图 视图 最 味 看 ， 人 简单 细胞 对 在 特定 位 置 
处 、 特 定 方 同上 上、 特定 空间 频 深 的 膨 撒 进行 啊 应 。 妆 图 像 中 的 光波 与 细 
胞 的 权重 具有 相同 的 相位 时 ， 简 单 细胞 是 最 兴奋 的 。 这 种 情况 发 生 在 当 
图 像 亮 时 ， 它 的 权重 为 正 ， 而 网 像 暗 时 ， 它 的 权重 为 负 。 当 光波 与 权重 
完全 腊 相 时 ， 人 简单 细胞 被 抑制 一 一 当 图 像 较 蜡 时 ， 它 的 权重 为 正 ， 较 亮 
时 ， 它 的 权重 为 负 。 


复杂 细胞 的 草图 视图 是 它 计 算 包 仿 两 个 简单 细胞 啊 应 的 二 维 同 量 的 L “ 
YR: c(I)= so(I)? + sı (I)? 。 一 个 重要 的 特殊 情况 是 当 s 1 Alls 0 具有 
除 g 以 外 都 相同 的 参数 ， 并 且 qg 被 设置 为 使 得 s | 与 s 0 相位 相差 四 分 之 一 
周期 时 。 在 这 种 情况 下 ，s 0 和 s 1 形成 象限 对 (quadrature pair) 。 当 高 
斯 重新 加 权 的 图 像 I(x,y)exp(-B、x“-B yy “包含 具有 频率 f、 在 方 同 t 上 、 
接近 (x o ,y 0 ) 的 高 振幅 正弦 波 时 ， 用 先前 方法 定义 的 复 森 细胞 会 啊 应 ， 
并 且 不 管 该 波 的 相位 偏 移 。 换 句 话 说 ， 复 杂 细 胞 对 于 图 像 在 方 同 t 上 的 
微小 变换 或 者 翻转 图 像 《 用 日 色 代 丛 黑 色 ， 反 之 办 然 ) 上 共有 不 变性 。 


神经 科学 和 机 器 学 习 之 则 最 显著 的 对 应 关系， 是 从 视 帝 上 比较 机 器 学 习 
模型 学 得 的 特征 与 使 用 V1 得 到 的 特征 。Olshausen and Field (1996) 说 
上 明 ， 一 个 简单 的 无 监督 学 习 算 法 一 一 稀 臣 编 梧 ， 学 习 的 特征 共有 与 徐 音 
细胞 美 似 的 感受 野 。 从 那 时 起 ， 我 们 发 现 ， 当 应 用 于 目 然 图 像 时 ， 极 其 
多 样 的 统计 学 习 算 法 学 习 类 Gabor 函 数 的 特征 。 这 包括 大 多 数 深 度 学 习 
算法 ， 扎 们 在 其 第 一 层 中 学 习 这 些 特征 。 网 9.19 给 出 了 一 些 例子 。 因 为 
如 此 众多 不 同 的 学 习 算 法 学 习 边 缘 检 测 句 ， 所 以 很 难 仅 基于 学 习 算 法 学 
得 的 特征 ， 来 断定 哪 一 个 特定 的 学 习 算 法 是 “正确 ”的 大 脑 模 型 〈 虽 然 ， 
当 应 用 于 日 然 图 像 时 ， 如 果 一 个 算法 不 能 学 得 某 种 检测 右 时 ， 它 能 够 作 
为 一 种 否定 标志 )。 这 些 特征 是 目 然 图 像 的 统计 结构 的 重要 部 分 ， 并 日 
可 以 通过 许多 不 同 的 统计 建 模 方法 来 重新 获得 。 读 者 可 以 参考 





(Hyvärinen et al. , 2009) 来 获得 日 然 图 像 统 计 领 域 的 综述 。 





图 9.19 许多 机 咽 学 习 算法 在 应 用 于 目 然 图 像 时 ， 会 学 习 那 些 用 来 检测 边缘 或 边缘 的 特定 颜色 

的 特征 。 这 些 特征 检测 费 使 人 联想 到 已 知 存在 于 初级 视觉 肥 层 中 的 Gabor 函 数 。〈 左 ) 通过 应 用 
于 小 图 像 块 的 无 监督 学 习 算法 尖峰 和 平板 稀 蚊 编码 〉 学 得 的 权重 。 ( 右 〉 由 完全 监督 的 苍 积 
maxout 网 络 的 第 一 层 学 得 的 苍 积 核 。 相 邻 的 一 对 过 小 妖 驱 动 相同 的 maxout 单 元 


9.11 铬 积 网 络 与 深度 学 习 的 历史 


郑 积 网 络 在 深 上 学 习 的 历史 中 发 挥 了 重要 人 作用。 它们 是 将 研究 大 脑 获 得 
的 深刻 理解 成 功用 于 机 器 学 习 应 用 的 关键 例子 。 它 们 也 是 第 一 个 表现 民 
好 的 深度 模型 之 一 ， 远 远 早 于 任 音 深度 模型 实 认 为 是 可 行 的 。 郑 积 网 络 
也 是 第 一 个 解决 重要 商业 应 用 的 神经 网 络 ， 并 且 仍 然 是 当今 深度 学 习 丙 
业 应 用 的 前 治 。 例 如 ， 在 20 世 纪 90 年 代 ，AT&T 的 神经 网 络 研 究 小 组 开 
发 了 一 个 用 于 读 取 文 标 的 卷 积 网 络 (LeCun et al. , 1998c) 。 到 90 年 代 
末 ，NEC 部 普 的 这 个 系统 已 经 被 用 于 谈 取 美国 10% 以 上 的 支票 。 后 来 ， 
微软 公司 部 闭 了 耕 干 个 基于 知 积 网 络 的 OCR 和 手写 识别 系统 (Simard et 
al. , 2003) 。 天 于 卷 积 网 络 的 这 种 应 用 和 更 现代 应 用 的 更 多 细 和 ， 参 
考 第 12 章 。 读 者 可 以 参考 (LeCun et al. , 2010) 了 解 2010 年 之 前 的 更 
为 深入 的 卷 积 网 络 历 史 。 


疮 积 网络 也 被 用 作 在 许多 比赛 中 的 取胜 手段 。 当 前 对 深度 学 习 的 商业 兴 
趣 的 热度 始 于 Krizhevsky et al. (2012a) 记得 了 ImageNet 对 象 识别 挑 
战 ， 但 是 在 那 之 前 ， 卷 积 网 络 也 已 经 被 用 于 珀 得 前 些 年 影响 较 小 的 其 他 
机 恬 学 习 和 计算 机 视觉 苋 旨 了。 


爷 积 网 络 是 第 一 批 能 使 用 反 同 传播 有 效 训练 的 的 深度 网 络 之 一 。 现 在 仿 
不 完全 清楚 为 什么 人知 积 网 络 在 一 般 的 反 同 传播 网 络 和 被 认为 已 经 失败 时 反 
而 成 功 了 。 这 可 能 可 以 简 早 地 归结 为 苍 积 网 络 比 全 连接 网 络 计算 效率 更 
局 ， 因 此 使 用 它们 运行 多 个 实验 并 调整 它们 的 实现 和 超 参 数 更 容易 。 喝 
大 的 网 络 也 似乎 更 容易 训练 。 利 用 现代 硬件 ， 大 型 全 连接 的 网 络 在 许多 
任务 上 也 表现 得 很 合理 ， 即 使 使 用 过 去 那些 全 连接 网 络 被 认 为 不 能 工作 
得 很 好 的 数据 集 和 当时 流行 的 激活 函数 时 ， 现 在 也 能 执行 得 很 好 。 心 理 
可 能 神经 网 络 成 功 的 主要 阻碍 (实践 者 没有 期 望 神经 网 络 有 效 ， 所 以 他 
们 没有 认真 努力 地 使 用 神经 网 络 ) 。 无 论 如 何 ， 笠 运 的 是 卷 积 网 络 在 几 
TF HAL REF. EFST, EMAAR PRERJE, JF 
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卷 积 网 络 提供 了 一 种 方法 来 特 化 神经 网 络 ， 使 其 能 够 处 理 具 有 清楚 的 网 
格 结构 拓扑 的 数据 ， 以 及 将 这 样 的 模型 扩展 到 非常 大 的 规模 。 这 种 方法 
在 二 维 图 像 拓 扑 上 是 最 成 功 的 。 为 了 处 理 一 维 序列 数据 ， 我 们 接 下 来 转 
癌 和 神经 网 络 框 染 的 妨 一 种 强大 的 特 化 : 循环 神经 网 络 。 


(1) 详 者 注 : 本 书 中 operation 视 语 境 有 时 翻译 成 < 运算 ”， 有 时 翻译 成 < 操作”。 
(2) VEATE: 原文 将 此 处 误 与 成 了 T。 
(3) VERVE: 原文 将 K 误 写 成 了 k。 
第 10 章 ”序列 建 模 : 循环 和 递归 网 络 


循环 神经 网 络 (recurrent neural network) 或 RNN (Rumelhart et al. , 
1986c) 是 一 类 用 于 处 理 序列 数据 的 神经 网 络 。 束 像 知 积 网 络 是 专门 用 
于 处 理 网 格 化 数据 X (如 一 个 图 像 ) 的 神经 网 络 ， 循 环 神经 网 络 是 专门 
用 于 处 理 序列 x 四 ,..., x (9 的 神经 网 络 。 正 如 卷 积 网 络 可 以 很 容易 地 扩 
展 到 具有 很 大 宽度 和 高 度 的 图 像 ， 以 及 处 理 大 小 可 变 的 图 像 ， 循 环 网 络 
可 以 扩展 到 更 长 的 序列 〈( 比 不 基于 序列 的 符 化 网 络 长 得 多 )〉 。 大 多 数 循 
环 网 络 也 能 处 理 可 变 长 虎 的 序列 。 


从 多 层 网 络 出 发 到 循环 网 络 ， 我 们 需要 利用 20 世 纪 80 年 代 机 器 学 习 和 统 


计 模 型 早期 思想 的 优点 : FERAL AN TA OP SEB. BASE EGE 
型 能 够 扩展 到 不 同形 式 的 样本 〈 这 里 指 不 同 长 上 度 的 样本 ) 并 进行 泛 化 。 
如 末 我 们 在 每 个 时 间 点 都 有 一 个 单独 的 参数 ， 不 但 不 能 汉 化 到 训练 时 没 
有 见 过 序列 长 度 ， 也 不 能 在 时 间 上 共 画 不 同 序列 长 度 和 不 同位 置 的 统计 
强度 。 当 信息 的 特定 部 分 会 在 序列 内 多 个 位 置 出 现时 ， 这 样 的 共 带 尤为 
重要 。 例如， 考虑 这 两 句 话 : “I went to Nepal in 2009” 和 “In 2009, I 
went to Nepal.” 如 果 我 们 让 一 个 机 桥 学 习 模 型 读 取 这 两 个 句子 ， 并 提取 
叙述 者 去 Nepal 的 年 份 ， 无 论 “2009 年 ”是 作为 句子 的 第 六 个 单词 还 是 第 
二 个 单词 出 现 ， 我 们 都 希望 模型 能 认 出 “2009 年 ?作为 相关 资料 斤 段 。 假 
设 我 们 要 训练 一 个 处 理 固 定 长 度 句 子 的 前 馈 网 络 。 传 统 的 全 连接 前 僻 网 
络 会 给 每 个 输入 特征 分 配 一 个 单独 的 参数 ， 所 以 需要 分 别 学 习 人 句子 每 个 
位 置 的 所 有 语言 规则 。 相 比 之 下 ， 循 环 神经 网 络 在 几 个 时 间 步 内 共享 相 
同 的 权重 ， 不 需要 分 别 学 习 人 句子 每 个 位 置 的 所 有 语言 规则 。 


一 个 相关 的 想法 是 在 一 维 时 间 序 列 上 使 用 卷 积 。 这 种 卷 积 方法 是 时 延 神 
经 网 络 的 基础 (Lang and Hinton, 1988; Waibel et al. , 1989; Lang et 
al. , 1990) 。 卷 积 操作 允许 网 络 跨 时 间 共 享 参数 ， 但 是 浅 层 的 。 卷 积 
的 输出 是 一 个 序列 ， 其 中 输出 中 的 每 一 项 是 相 邻 几 项 输入 的 函数 。 参 数 
共 且 的 概念 体现 在 每 个 时 间 步 中 使 用 的 相同 疮 积 核 。 循 环 神 经 网 络 以 不 
同 的 方式 共 圣 参数 。 输 出 的 每 一 项 是 前 一 项 的 函数 。 输 出 的 每 一 项 对 先 
前 的 输出 应 用 相同 的 更 新 规则 而 产生 。 这 种 循环 方式 导致 参数 通过 很 深 
的 计算 图 共 孕 。 


为 简单 起 见 ， 我 们 说 的 RNN 征 指 在 序列 上 的 操作 ， 并 且 该 序列 在 时 刻 

t (从 1 到 Tt) 包含 向 量 x 包 。 在 实际 情况 中 ， 循 环 网 络 通常 在 序列 的 小 批 
量 上 操作 ， 并 且 小 批量 的 每 项 具有 不 同 友 列 长 度 t。 我 们 管 略 了 小 批量 

乏 引 来 简化 记 写 。 此 外 ， 时 间 步 索引 不 必 是 字面 上 现实 世界 中 流 挝 的 时 
间 。 有 时 ， 它 仅 表 示 序 列 中 的 位 置 。RNN 也 可 以 应 用 于 跨越 两 个 维度 的 
空间 数据 (如 图 像 〉。 妆 应 用 于 涉及 时 间 的 数据 ， 并 且 将 整个 序列 提供 
给 网 络 之 前 就 能 观察 到 整个 序列 时 ， 该 网 络 可 上 其 有 关于 时 间 同 后 的 连 

接 。 

本 半 将 计算 图 的 思想 扩展 到 包括 循环 。 这 些 周期 代表 变量 目 号 的 值 在 未 


来 条 一 时 间 步 对 目 映 值 的 影响 。 这 样 的 计算 图 允许 我 们 定义 循环 神经 网 
络 。 然 后 ， 我 们 描述 许多 构建 、 训 练 和 使 用 循环 神经 网 络 的 不 同方 式 。 


本 章 将 价 要 介绍 循环 神经 网 络 ， 为 获取 更 多 详细 信息 ， 我 们 建议 谈 者 参 
考 Graves (2012) 的 著作 。 


10.1 展开 计算 图 

计算 网 是 形式 化 一 组 计算 结构 的 方式 ， 如 那些 涉及 将 输入 和 参数 映射 到 
输出 和 损失 的 计算 。 综 合 的 介绍 请 参考 第 6.5.1 衣 。 本 市 ， 我 们 对 展开 
(unfolding) 递归 或 循环 计算 得 到 的 重复 结构 进行 解释 ， 这 些 重 复 结构 
通常 对 应 于 一 个 事件 链 。 展 开 unfolding) 这 个 计算 图 将 导致 深度 网 络 
结构 中 的 参数 共有 至 。 

例如 ， 考 虑 动态 系统 的 经 典 形式 : 


s) = f(s). 0) (10.1) 


其 中 s@ 称 为 系统 的 状态 。 


s 在 时 刻 t 的 定义 需要 参考 时 记 f-1 时 间 样 的 定义 ， 因 此 去 《10.1) xe 
的 。 


对 有 限时 间 步 t，Tt-1 次 应 用 这 个 定义 可 以 展开 这 个 图 。 例 如 t 二 3， 我 们 
对 式 (10.1) 展开 ， 可 以 得 到 


s(3) = f(s); 0) (10.2) 
= JU (10.3) 


以 这 种 方式 音 复 应 用 定义 ， 展 开 等 式 ， 束 能 得 到 不 涉及 循环 的 表达 。 现 
在 我 们 可 以 使 用 传统 的 有 问 无 环 计算 图 呈现 这 样 的 表达 。 


式 (10.1) 和 式 (10.3) 的 展开 计算 图 如 图 10.1 所 示 。 


图 10.1 将 式 (10.1) 插 述 的 经 典 动态 系统 表示 为 展开 的 计算 图 。 每 个 节 扣 表示 在 才 个 时 刻 t 的 
状态 ， 并 且 函 数 f 将 t 处 的 状态 映射 到 t+1 处 的 状态 。 所 有 时 间 步 都 使 用 相同 的 参数 (用 于 参数 化 f 


的 相同 6 值 ) 

作为 另 一 个 例子 ， 让 我 们 考虑 由 外 部 信号 x 包 驱动 的 动态 系统 ， 
s(t) = f(s) 2. @) (10.4) 

我 们 可 以 看 到 ， 当 前 状态 包含 了 整个 过 去 序列 的 信息 。 


循环 神经 网 络 可 以 通过 许多 不 同 的 方式 建立 。 束 像 几 乎 所 有 函数 都 可 以 
侯 认为 是 前 馈 网 络 ， 本 质 上 任何 涉及 循环 的 函数 部 可 以 视 为 一 个 循环 和 神 
经 网 络 。 


很 多 循环 神经 网 络 使 用 式 〈10.5) 或 类 似 的 公 却 定义 隐藏 单元 的 值 。 为 
了 表明 状态 是 网 络 的 隐藏 单元 ， 我 们 便 用 变量  h ”代表 状态 重 写 式 
(10.4) : 


h® = f(r) 2.6) (10.5) 


如 图 10.2 所 示 ， 典 型 RNN 会 增加 额外 的 架构 特性 ， 如 读 取 状态 信息 h 进 
行 预 负 的 输出 层 。 
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图 10.2 ”没有 输出 的 循环 网 络 。 此 循环 网 络 只 处 理 来 自 输 入 x 的 信息 ， 将 其 合并 到 经 过 时 间 疝 前 


传播 的 状态 he. E) 回路 原理 图 。 cadres, pers FF] — PA 28 LA 
展开 的 计算 图 ， 其 中 每 个 节操 现在 与 一 个 特定 的 时 间 实 例 相 关联 


当 训 练 循环 网 络 根据 过 去 预测 未 来 时 ， 网 络 通 常 要 学 会 使 用 h O 作为 过 
去 序列 (直到 t) 与 任务 相关 方面 的 有 损 摘 要 。 此 摘要 一 般 而 言 一 定 是 
有 损 的 ， 因 为 其 映射 任意 长 度 的 序列 (x ,x “ED ,x 2 xX x @ 
ŽE EKEN h © 。 根据 不 同 的 训练 准则 ， 摘 要 可 能 选择 性 地 
‘a HDR FA st Je FF SO EET TA 例如 ， 如 果 在 统计 语言 建 模 中 使 用 的 
RNN， 通 党 给 定 前 一 个 词 预 测 下 一 个 词 ， 可 能 没有 必要 存储 时 刻 t 前 输 


入 序列 中 的 所 有 信息 ; me eT REO aA 
刻 的 情况 是 我 们 要 求 h 足够 丰富 ， 并 能 大 致 恢复 输入 序列 ， 如 自 编码 
髓 框架 (第 14 章 ) 。 


却 〈10.5) 可 以 用 两 种 不 同 的 方式 绘制 。 一 种 方法 是 为 可 能 在 模型 的 物 
理 实现 中 存在 的 部 分 赋予 一 个 市 点 ， 如 生物 神经 网 络 。 在 这 个 观点 下 ， 
网 络 定义 了 实时 操作 的 回路 ， 如 图 10.2 的 左 侧 ， 其 当前 状态 可 以 影响 其 
未 来 的 状态 。 在 本 章 中 ， 我 们 使 用 回路 图 的 黑色 方 其 表 明 在 时 刻 t 的 状 
态 到 时 刻 t+r1 的 状态 单个 时 刻 延 到 中 的 相互 作用 。 万 一 个 绘制 RNN 的 方 
法 是 展开 的 计算 图 ， 其 中 每 一 个 组 件 由 许多 不 同 的 变量 表示 ， 每 个 时 间 
步 一 个 变量 ， 表 示 在 该 时 间 操 组 件 的 状态 。 每 个 时 间 步 的 每 个 变量 绘制 
为 计算 图 的 一 个 独立 节点 ， 如 图 10.2 的 右 侧 。 我 们 所 说 的 展开 是 将 左 图 
中 的 回路 映 映 为 右 图 中 包含 重复 组 件 的 计算 图 的 操作 。 目 前 ， 展 开 图 的 
大 小 取决 于 序列 长 度 。 


我 们 可 以 用 一 个 函数 g 代表 经 t 步 展开 后 的 循环 : 


A = gO (gp) wD gt) 00.) gg) (10.6) 
= Fh alo) (10.7) 


pki Blo O 将 全 部 的 过 去 序列 ( xO x OD xX xO x 中) 作为 输入 来 
生成 当前 状态 ， 但 是 展开 的 循环 架构 允许 我 们 将 g 分 解 为 函数 f 的 重复 
应 用 。 因 此 ， 展 开 过 程 引 入 两 个 主要 优点 : 


(1) 无 论 序列 的 长 度 ， 和 学 成 的 模型 始终 具有 相同 的 输入 大 小 ， 因 为 它 
指定 的 是 从 一 种 状态 到 为 一 种 状态 的 转移 ， 而 不 古 在 可 变 长 度 的 历史 状 
态 上 操作 。 


C2) 我 们 可 以 在 每 个 时 间 步 使 用 相同 参数 的 相同 转移 函数 f。 
这 两 个 因 系 使 得 学 习 在 所 有 时 间 步 和 所 有 序列 长 上 度 上 操作 蛙 一 的 模型 f 
是 可 能 的 ， 而 不 需要 在 所 有 可 能 时 间 步 学 习 独 立 的 模型 g O 。 学 习 单一 
的 共 至 模型 允许 泛 化 到 没有 见 过 的 序列 长 度 没 有 出 现在 训练 集中 》， 
并 且 估 计 柑 型 所 家 的 训练 样本 远 远 少 于 不 市 参数 共 圣 的 模型 。 
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在 时 间 上 向 前 (计算 输出 和 损失 ) 和 癌 后 (计算 梯度 ) 的 思想 。 

10.2 ”循环 神经 网 络 

基于 第 10.1 节 中 的 图 展开 和 参数 共享 的 思想 ， 我 们 可 以 设计 各 种 循环 神 
经 网 络 。 


循环 神经 网 络 中 一 些 重要 的 设计 模 陈 包括 以 下 几 种: 


(1) 每 个 时 间 步 都 有 输出 ， 并 且 隐 茂 单元 之 间 有 循环 连接 的 循环 网 
络 ， 如 图 10.3 所 示 。 





图 10.3 ”计算 循 坏 网络 (将 x 值 的 输入 序列 映射 到 输出 值 o 的 对 应 序列 ) 训练 损失 的 计算 图 。 措 
失 工 衡量 每 个 o 与 相应 的 训练 目标 y 的 距离 。 当 使 用 softmax 输 出 时 ， 我 们 假设 o 是 未 归 一 化 的 
数 概率 。 损 失 工 内 部 计算 Y = Softmax( oO ) ， 并 将 其 与 目标 ”比较 。RNN 输 入 到 隐藏 的 连 : 
由 权重 矩阵 吕 参 数 化， 隐藏 到 隐 天 的 循环 连接 由 权重 算 阵 W 参数 化 以 及 隐藏 到 输出 的 连接 由 权 


HERE VSŽ. Th (10.8) 定义 了 该 模 型 中 的 前 癌 传 播 。( 左 ) 使 用 循环 连接 绘制 的 RNN 和 
THA. CA) 同一 网 络 被 视 为 展开 的 计算 图 ， 其 中 每 个 市 点 现在 与 一 个 特定 的 时 间 实 例 相 
关联 


(2) 每 个 时 间 步 都 产生 一 个 输出 ， 只 有 当前 时 刻 的 输出 到 下 个 时 刻 的 





隐藏 单元 之 间 有 循环 连接 的 人 循环 网 络 ， 如 图 10.4 所 示 。 





图 10.4 ”此 类 RNN 的 唯一 循环 是 从 输出 到 隐藏 层 的 反馈 连接 。 在 每 个 时 间 步 t， 输 入 为 xt Neti 
层 激活 为 户 ( ， 输 出 为 o 侯 ， 目 标 为 y( 侯 ， 损 失 为 工 侯 。 ( 左 ) 回路 原理 图 。 OF) 展开 的 i 
算 图 。 这 样 的 RNN 没 有 图 10.3 表 示 的 RNN 那 样 强 大 (只 能 表示 更 小 的 函数 集合 ) 。 图 10.3 中 的 
RNN 可 以 选择 将 其 想 要 的 天 于 过 去 的 任何 信息 放 入 隐藏 表示 h PHHH h 传播 到 未 来 。 该 图 中 
的 RNN 被 训练 为 将 特定 输出 值 放 入 o 中 ， 并 且 o 是 允许 传播 到 未 来 的 唯一 信息 。 此 处 没有 从 h 
问 传 播 的 直接 连接 。 之 前 的 h 仅 通过 产生 的 预测 间接 地 连接 到 当前 。 o 通常 缺乏 过 去 的 重要 信 
息 ， 除 非 它 非常 高 维 且 内 容 丰 富 。 这 使 得 该 图 中 的 RNN 不 那么 强大 ， 但 是 它 更 容易 训练 ， 因 为 
每 个 时 间 步 可 以 与 其 他 时 间 步 分 离 训 练 ， 人 允许 训练 期 间 更 多 的 并 行 化 ， 如 第 10.2.1 节 所 述 


(3) 隐 嘱 单元 之 间 存 在 循环 连接 ， 但 读 取 整个 序列 后 产生 单个 输出 的 
循环 网 络 ， 如 图 10.5 所 示 。 
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图 10.5 ”关于 时 间 展 开 的 循环 神经 网 络 ， 在 序列 结束 时 具有 单个 输出 。 这 样 的 网 络 可 以 用 于 概 
括 序 列 并 产生 用 于 进一步 处 理 的 固定 大 小 的 表示 。 在 结束 处 可 能 存在 目标 《如 此 处 所 示 ) ， 或 
者 通过 更 下 游 模块 的 反 向 传播 来 获得 输出 oO 上 的 梯度 


图 10.3 古 非 第 具有 代表 性 的 例子 ， 我 们 将 会 在 本 章 大 部 分 涉及 这 个 例 
Ta 


任何 图 灵 可 计算 的 函数 都 可 以 通过 这 样 一 个 有 限 维 的 循环 网 络 计算 ， 在 
这 个 意义 上 图 10.3 和 去 〈10.8) 的 循环 神经 网 络 是 万 能 的 。RNN 经 过 石 
干 时 间 步 后 读 取 输出 ， 这 与 由 图 灵机 所 用 的 时 间 步 是 潮 近 线性 的 ， 与 输 
入 长 度 也 是 渐 近 线性 的 《〈Siegelmann and Sontag, 1991; Siegelmann, 
1995; Siegelmann and Sontag, 1995; Hyotyniemi, 1996) 。 由 图 灵机 
计算 的 函数 是 离散 的 ， 所 以 这 些 结果 部 是 函数 的 其 体 实现 ， 而 不 是 近 
似 。RNN 作 为 网 灵机 使 用 时 ， 需 要 一 个 二 进 制 序列 作 为 输入 ， 其 输出 必 
须 离散 化 以 提供 二 进 制 输出 。 利 用 单个 有 限 关 小 的 特定 RNN 计 算 在 此 设 
置 下 的 所 有 函数 是 可 能 的 〈Siegelmann and Sontag (1995) 用 了 886 个 单 
JÙ) 。 图 灵机 的 “输入 ?是 要 计算 函数 的 详细 说 明 Cspecification) ， 上 所 以 
模拟 此 图 元 机 的 相同 网 络 足 以 应 付 所 有 问题 。 用 于 证 明 的 理论 RNN 可 以 
通过 激活 和 权重 《由 无 限 精度 的 有 理 数 表示 ) 来 模拟 无 限 堆 栈 。 
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的 激活 函数 。 假 设 使 用 双 曲 正切 激活 函数 。 此 外 ， 图 中 没有 明确 指定 何 
种 形式 的 输出 和 损失 函数 。 假 定 输出 是 离散 的 ， 如 用 于 预测 词 或 字符 的 
RNN。 表 示 离 散 变 量 的 常规 方式 是 把 输出 o 作为 每 个 离散 变量 可 能 值 的 
非 标准 化 对 数 概率 。 然 后 ， 我 们 可 以 应 用 softmax 函 数 后 续 处 理 后 ， 获 
得 标准 化 后 概率 的 输出 向 量 W 。RNN 从 特定 的 初始 状态 h © 开始 前 向 
传播 。 从 t= 二 1 到 t 二 的 每 个 时 间 步 ， 我 们 应 用 以 下 更 新 方程 : 


a) = b+ Wh) + Ue (10.8) 
h\? = tanh(a ®©) (10.9) 
ot =e+ Vh” (10.10) 
gy — softmax(o”) (10.11) 


FLA ZS A i Ss est b 和 cc 连同 权重 矩阵 上 、V 和 W ， 分 别 对 应 于 
输入 到 隐 羧 、 隐 藏 到 得 出 和 隐 蔚 到 隐 羧 的 连接 。 这 个 循环 网 络 将 一 个 输 
A Fp al FY BAB Pa ES BE Fa LE Pe). 5 x 序列 配对 的 y 的 忌 损 失 束 是 所 
有 时 间 步 的 损失 之 和 。 例 如 ，L 山 为 给 定 的 x 吧 ，.,x 忆 后 y 包 的 负 对 数 
似 然 ， 则 


L({a™,... oP}, fy)... yt) (10.12) 
=>) (10.13) 
t 
ae X log Pmoda (y | {a sas „g }) (10.14) 
t 


Rp rog (YE Li x@,.. nxe ) 需 要 读 取 模 型 输出 向 量 和 中 对 应 于 y 
O 的 项 。 关于 各 个 参数 计算 这 个 损失 函数 的 梯度 是 计算 成 本 很 融 的 操 
作 。 柳 上 度 计 算 涉 及 执行 一 次 前 问 传 播 〈 如 在 图 10.3 展 开 图 中 从 左 到 右 的 

传播 ) ， 接 着 是 由 右 到 左 的 反 向 传播 。 运行 时 间 是 (7) ， 并 且 不 能 通 

oe AA BU al ed Al se VS ae; 每 个 时 间 步 只 能 一 前 
一 后 地 计算 。 前 问 传 播 中 的 各 个 状态 必须 保存 ， 直 到 它们 反 辣 传播 中 被 
FRR EA, 因此 内 存 代价 也 是 O(7) 。 应 用 于 展开 图 且 代 价 为 O(7T) 的 
反 回 传播 算法 称 为 通过 时 间 反 回 传 播 ”〈back-propagation through time, 

BPTT) ， 将 在 第 10.2.2 节 进一步 讨论 。 因 此 隐藏 单元 之 间 存 在 循环 的 网 
络 非 党 强大 但 训练 代价 也 很 大 。 我 们 是 耕 有 其 他 选择 呢 ? 


10.2.1 了 寻 师 张 动 过 程 和 输出 循环 网 络 


仪 在 一 个 时 间 步 的 输出 和 下 一 个 时 间 步 的 隐藏 单元 间 存 在 循环 连接 的 网 
络 〈 见 图 10.4) 确实 没有 那么 强大 因为 缺乏 隐 蕊 到 隐藏 的 循环 达 
fe) 。 例 如 ， 它 不 能 模拟 通用 图 天机 。 因 为 这 个 网 络 缺 少 隐藏 到 隐藏 的 
循环， 它 要 求 输出 单元 捕捉 用 于 预测 未 来 的 天 于 过 去 的 所 有 信息 。 因 为 
输出 持 元 明确 地 训练 成 匹配 训练 集 的 目标 ， 它 们 不 太 能 捕 医 天 于 过 去 输 
入 历史 的 必要 信息 ， 除 非 用 尸 知 过 如 何 手 述 系统 的 全 部 状态 ， 并 将 它 作 
为 训练 目标 的 一 部 分 。 消 除 隐 藏 到 隐藏 循环 的 优点 在 于 ， 任 何 基 于 比较 
时 刻 t 的 预 调 和 时 刻 t 的 训练 目标 的 损失 函数 中 的 所 有 时 间 步 都 解 秋 了 。 
因此 训练 可 以 并 行 化 ， 即 在 各 时 刻 t 分 别 计算 梯度 。 因 为 训练 集 提 供 输 
出 的 理想 值 ， 所 以 没有 必要 先 计 算 二 一 时 刻 的 输出 。 


由 输出 反馈 到 模型 而 产生 循环 连接 的 模型 可 用 导师 驱动 过 程 Cteacher 
forcing) 进行 训练 。 训 练 模型 时 ， 导 师 驱 动 过 程 不 再 使 用 最 大 似 然 准 
则 ， 而 在 时 刻 t+1 接 收 真实 值 y © 作为 输入 。 我 们 可 以 通过 检查 两 个 时 间 
步 的 序列 得 知 这 一 点 。 条 件 最 大 似 然 准则 是 


log p(y, y |e), 2) (10.15) 
=log p(y? | y®, a, g) + log p(y | a, 2?) (10.16) 


在 这 个 例子 中 ， 同 时 给 定 迄 今 为 止 的 x 序 列 和 来 自 训练 集 的 前 一 y 值 ， 
我 们 可 以 看 到 在 时 刻 t==2 时 ， 模 型 被 训练 为 最 大 化 y O 的 条 件 概率 。 因 
此 最 大 似 然 在 训练 时 指定 正确 反馈 ， 而 不 是 将 自己 的 输出 反馈 到 模型 ， 
如 图 10.6 所 示 。 


训练 时 测试 时 





图 10.6 ”导师 驱动 过 程 的 示意 图 。 导 师 驱 动 过 程 是 一 种 训练 技术 ， 适 用 于 输出 与 下 一 时 间 步 的 
隐藏 状态 存在 连接 的 RNN。 ( 左 ) 训 练 时 ， 我 们 将 训练 集中 正确 的 输出 y 反馈 到 六 COD, 
E) 当 模 型 部 署 后 ， 真 正 的 输出 通常 是 未 知 的 。 在 这 种 情况 下 ， 我 们 用 模型 的 输出 o 介 近似 
正确 的 输出 y 他 ， 并 反馈 回 模型 


我 们 使 用 导师 驱动 过 程 的 最 和 初 动机 是 为 了 在 缺乏 隐 纠 到 隐藏 连 接 的 模型 
中 避免 通过 时 间 反 回 传 播 。 只 要 模型 一 个 时 间 步 的 输出 与 下 一 时 间 步 计 
算 的 值 存在 连接 ， 导 师 驱 动 过 程 仍然 可 以 应 用 到 这 些 存在 隐藏 到 隐藏 连 
接 的 模型 。 然 而 ， 上 只 要 隐 首 单元 成 为 较 早 时 间 步 的 图 数 ，BPTT 算 法 是 
必要 的 。 因 此 训练 茶 些 模型 时 要 同时 使 用 导师 驱动 过 程 和 BPTT。 


如 果 之 后 网 络 在 开 环 (open-loop) 模式 下 使 用 ， 即 网 络 输 出 (或 输出 
分 布 的 样本 〉 反馈 作为 输入 ， 那 么 完全 使 用 导师 驱动 过 程 进行 训练 的 缺 
点 束 会 出 现 。 在 这 种 情况 下 ， 训 练 期 间 该 网 络 看 到 的 输入 与 测试 时 看 到 
的 会 有 很 大 的 不 同 。 减 轻 此 问题 的 一 种 方法 是 同时 使 用 导师 驱动 过 程 和 
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个 步骤 的 正确 目标 值 。 通 过 这 种 方式 ， 网 络 可 以 学 会 考虑 在 训练 时 没有 
接触 到 的 输入 条 件 《“ 如 目 由 运行 模式 下 ， 目 身 生 成 目 身 ) ， 以 及 将 状态 
映射 回 使 网 络 几 步 之 后 生成 正确 输出 的 状态 。 另 一 种 方式 〈Bengio et al. 
，2015b) 是 通过 随意 选择 生成 值 或 芮 实 的 数据 值 作为 输入 以 减 小 训 红 
时 和 测试 时 看 到 的 输入 之 间 的 差别 。 这 种 方法 利用 了 课程 学 习 策 略 ， 逐 
步 使 用 更 多 生成 值 作为 输入 。 


10.2.2 ”计算 循环 神经 网 络 的 梯 虔 


计算 循环 神经 网 络 的 梯度 是 容易 的 。 我 们 可 以 简单 地 将 第 6.5.6 节 中 的 推 
广 反 问 传 播 算法 应 用 于 展开 的 计算 图 ， 而 不 需要 特殊 化 的 算法 。 由 反问 
传播 计算 得 到 的 柳 度 ， 并 结合 任何 通用 的 基于 柳 度 的 技术 残 可 以 训练 
RNN. 


为 了 获得 BPTT 算 法 行为 的 一 些 直观 理解 ， 我 们 举例 说 明 如 何 通 过 BPTT 
计算 上 述 RNN 公 式 ( 式 (10.8) 和 式 〈10.12) ) 的 梯度 。 计 算 图 的 节点 
包括 参数 品 、V、W、b 和 c ， 以 及 以 t 为 索引 的 节点 序列 x 忆 、 六 地 
o © ALO 。 对 于 每 一 个 节点 N ， 我 们 需要 基于 N 后 面 的 节点 的 梯 
度 ， 递 归 地 计算 梯度 Y NL。 我 们 从 紧 接 着 最 终 损失 的 节点 开始 递归 : 


OL ; 
OL) | 


在 这 个 导数 中 ， 假 设 输 出 o W 作为 softmax 函 数 的 参数 ， 我 们 可 以 从 
softmax 函 数 可 以 获得 关于 输出 概率 的 同 量 WY ”。 我 们 也 假设 损失 是 运 今 
为 止 给 定 了 输入 后 的 真实 目标 y 的 负 对 数 似 然 。 对 于 所 有 i、t， 关 于 时 
同步 输出 的 梯度 V(t) 上 如 下 : 


(10.17) 


OL OL OL) _ 


v= = m 41, 
(V pols = Ao j OL) an) Yi Lega (10.18) 





我 们 从 序列 的 末尾 开始 ， 反 向 进行 计算 。 在 最 后 的 时 间 步 T， 玉 只 有 o 
忆 作 为 后 续 节 点 ， 因 此 这 个 梯度 很 简单 : 


VnL=V VE (10.19) 


PRY, RETEA VAAN Alt = 1-1 Bt 1 SAAR, TA Ae [a Fe 





E, FRAVCDAN AA o 和 有 h (9 两 个 后 续 节 点 。 因 此 ， 它 的 梯 
REAR sth ee 
ant), T BaT 
V p(t) L = ap. (Vren L) + (=a) (Vow L) (10.20) 
= W (Vne+oL)diag(1 es (ny) tP ce SE (10.21) 


其 中 diag(1- (0) 表示 包含 元 素 1 - (ATY) AE ARE. eT 
时 刻 t+1 与 隐 关 单元 ij 关联 的 双 曲 正切 的 Jacobian。 


一 旦 获得 了 计算 图 内 部 节点 的 梯度 ， 我 们 就 可 以 得 到 关于 参数 节点 的 梯 
度 。 因 为 参数 在 许多 时 间 步 共享 ， 我 们 必须 在 表示 这 些 变 量 的 微 积分 操 
作 时 谨慎 对 待 。 我 们 希望 实现 的 等 式 使 用 第 6.5.6 节 中 的 bprop 方 法 计算 
计算 图 中 单一 边 对 梯度 的 贡献 。 然 而 微 积分 中 的 wT, 计算 W 对 
于 { 的 贡献 时 将 计算 图 中 的 所 有 边 都 考虑 进去 了 。 为 了 消除 这 种 歧义 ， 
我 们 定义 只 在 时 刻 使 用 的 虚拟 变量 WO 作为 W 的 副本 。 然 后 ， 可 以 使 
H V wo 表示 权重 在 时 间 步 对 梯度 的 贡献 。 


使 用 这 个 表示 ， 关 于 剩 下 参数 的 梯度 可 以 由 式 (10.22) ~i (10.28) 
oh tH 














Ads > (see) 可， = 5, Tmi (10.22) 
Vai > | Val = 了 diag(1- (h)”) Vi (10.23) 
Velo > à, (saa) Tve” = D ota (10.24) 
Tyl = > (Ft) wor? (10.25) 


= Yo diag(1 — (h)*) (Vro Lh (10.26) 


Vol = > (a) Vel (10.27) 
t 2 2 


i y diag(1 - (RO ) (Vro Lo" (10.28) 


因为 计算 图 中 定义 的 损失 的 任何 参数 都 不 是 训练 数据 x 的 父 节 点 ， 所 
以 我 们 不 需要 计算 关于 它 的 标 度 。 


10.2.3 ”作为 有 问 图 模型 的 循环 网 络 


目前 为 止 ， 我 们 接触 的 循环 网 络 例子 中 损失 L O 是 训练 目标 y O 和 输出 
o O 之 间 的 交叉 米 。 与 前 馈 网 络 类 似 ， 原 则 上 循环 网 络 几 乎 可 以 使 用 任 
何 损 失 。 但 必须 根据 任务 来 选择 损失 。 如 前 馈 网 络 ， 通 单 我 们 布 望 将 
RNN 的 输出 解释 为 一 个 概率 分 布 ， 并 且 通 党 使 用 与 分 布 相 关联 的 交 文 燃 
来 定义 损失 。 均 方 误 磊 是 与 日 位 高 斯 分 布 的 输出 相关 联 的 交叉 烯 损失， 
例如 前 馈 网 络 中 所 使 用 的 。 

当 使 用 一 个 预测 性 对 数 似 然 的 训练 目标 ， 如 式 (10.12) ， 我 们 将 RNN 


训练 为 能 够 根据 之 前 的 输入 估计 下 一 个 序列 元 素 y 的 条 件 分 布 。 这 可 
能 意味 看 ， 我 们 最 大 化 对 数 似 然 


log p(y | p) aes x£) (10.29) 
或 者 ， 如 下 模型 包括 来 目 一 个 时 间 步 的 输出 到 下 一 个 时 间 步 的 连接 ， 
log p(y | we p aM yO... yD) (10.30) 


RENTI y EER aD A A — BB ES eH RSE 
序列 完整 联合 分 布 的 一 种 方法 。 如 来 我 们 不 把 过 去 的 y 值 及 人 馈 给 下 一 步 
作为 预测 的 条 件 ， 那 么 有 向 图 模型 不 包含 任何 从 过 去 y © 到 当前 y0 的 
边 。 在 这 种 情况 下 ， 和 输出 y 与 给 定 的 x 序列 是 条 件 独立 的 。 如 果 我 们 反 
馈 真 实 的 y 值 〈 不 十 它 们 的 预测 值 ， 而 是 真正 观测 到 或 生成 的 值 〉 给 网 
络 ， 那 么 有 向 图 模型 包含 所 有 从 过 去 y 必 到 当前 y 包 的 边 。 


举 一 个 简单 的 例子 ， 让 我 们 考虑 对 标量 随机 变量 序列 YO = {y © uy 
© } 建 模 的 RNN， 也 没有 额外 的 输入 x。 在 时 间 步 t 的 输入 仅仅 是 时 间 步 f 


1 的 输出 。 该 RNN 定 义 了 天 于 y 变 量 的 有 同 儿 模型 。 RIEA BEATA 
(用 于 条 件 概率 的 (3.6) ) 参数 化 这 些 观察 值 的 联合 分 


其 中 当 t 二 1 时 竖 杠 右 侧 显然 为 宇 。 因 此 ， 根 据 这 样 一 个 模型 ,一 组 值 {y 
人 .7 名 的 负 对 数 似 然 为 


is y Ge (10.32) 
t 


其 中 


天 二 log P(y = y(t) | yt- ty ye ae py) (10.33) 


图 模型 中 的 边 表 示 哪 些 变 量 和 直接 依赖 于 其 他 变量 。 许 多 图 模型 的 目标 是 
省 略 不 存在 强 相 互 作 用 的 边 以 实现 统计 和 计算 的 效率 。 例 如 ， 我 们 通 帝 
可 以 作 Markov 假 设 ， 即 图 模型 应 该 只 包含 从 {y 《9 ,7 ©) } 到 y © 的 
边 ， 而 不 是 包含 整个 过 去 历史 的 边 。 然 而 ， 在 一 些 情况 下 ， 我 们 认为 整 
个 过 去 的 输入 会 对 序列 的 下 一 个 元 素 有 一 定 影响 。 当 我 们 认为 y 的 分 
布 可 能 取决 于 遥远 过 去 《在 某 种 程度 ) Wy O 的 值 ， 且 无 法 通过 y OY 捕 
获 y 中 的 影响 时 ，RNN 将 会 很 有 用 。 


解释 RNN 作 为 图 模型 的 一 种 方法 是 将 RNN 视 为 定义 一 个 结构 为 完全 图 
的 图 模型 ， 且 能 够 表示 任何 一 对 y 值 之 间 的 直接 联系 。 图 10.7 是 关于 y 值 
上 且 具 有 完全 图 结构 的 图 模型 。 该 RNN 完 全 图 的 解释 基于 排除 并 忽略 模型 
中 的 隐藏 单元 h 9。 





图 10.7 ”序列 y (D ，y (2) yO, .. .的 全 连接 图 模型 。 给 定 先前 的 值 ， 每 个 过 去 的 观察 值 y 


QD 可 以 影响 一 些 y O (t>i 的 条 件 分 布 。 当 序列 中 每 个 元 素 的 输入 和 参数 的 数目 越 来 越 多 ， 根 据 
此 图 直接 参数 化 图 模型 (如 式 (10.6) 中 ) 可 能 是 非常 低 效 的 。RNN 可 以 通过 高 效 的 参数 化 获 
得 相同 的 全 连接 ， 如 图 10.8 所 示 


TARRE, KERE hO 视 为 随机 变量 ， 从 而 产生 RNN 的 图 模型 结 
构 岂 。 在 图 模型 中 包括 隐藏 单元 预示 RNN 能 对 观测 的 联合 分 布 提供 非常 
有 效 的 参数 化 。 假 设 我 们 用 表格 表示 法 来 表示 离散 仁 上 任意 的 联合 分 
布 ， 即 对 每 个 人 可 能 的 赋值 分 配 一 个 单独 条 目的 数组 ， 访 条目 表示 及 生 
FAME HIRE. WARY MK SAA, RB RIA O) 个 
参数 。 对 比 RNN， 由 于 参数 共享 ，RNN 的 参数 数目 为 O(1) 且 是 序列 长 
度 的 函数 。 我 们 可 以 调 有 RNN 的 参数 数量 来 控制 模型 容量 ， 但 不 用 被 塌 
与 序列 长 度 成 比例 。 式 〈10.5) 展示 了 上 所 述 RNN 通 过 循环 应 用 相同 的 函 
数 f 以 及 在 每 个 时 间 步 的 相同 参数 9 ， 有 效 地 参数 化 的 变量 之 间 的 长 期 
联系 。 图 10.8 说 明了 这 个 图 模型 的 解释 。 在 图 模型 中 结合 h O 节点 可 以 
用 作 过 去 和 未 来 之 间 的 中 间 量 ， 从 而 将 它们 解 耘 。 遥 远 过 去 的 变量 y © 
可 以 通过 其 对 h 的 影响 来 影响 变量 y (VY 。 该 图 的 结构 表明 可 以 在 时 间 步 
使 用 相同 的 条 件 概 座 分 布 有 效 地 参数 化 模型 ， 并 且 妆 观察 到 全 部 变量 
时 ， 可 以 高 效 地 评 佑 联合 分 配给 所 有 变量 的 概率 。 
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110.8 ”在 RNN 图 模型 中 引入 状态 变量 ， 尽 管 它 是 输入 的 确定 性 函数 ， 但 它 有 助 于 我 们 根据 式 
(10.5) 获得 非常 高 效 的 参数 化 。 序 列 中 的 每 个 阶段 (对 于 h ay) 使 用 相同 的 结构 (每 
个 节点 具有 相同 数量 的 输入 ) ， 并 且 可 以 与 其 他 阶段 共享 相同 的 参数 


即便 使 用 高 效 参数 化 的 图 模型 ， 菏 些 操作 在 计算 上 仍然 共有 挑战 性 。 例 
如 ， 难 以 预测 序列 中 喘 少 的 值 。 


循环 网 络 为 减少 的 参数 数目 付出 的 代价 是 优化 参数 可 能 变 得 困难 。 


在 循环 网 络 中 使 用 的 参数 共 圣 的 前 所 十 相同 参数 可 用 于 不 同时 间 步 的 假 
设 。 也 束 是 说 ， 假 设 给 定时 刻 t 的 变量 后 ， 时 刻 t+1 变 量 的 条 件 概率 分 布 
是 平稳 的 ” (stationary) ， 这 意味 看 之 前 的 时 间 步 与 下 个 时 间 步 之 则 的 
关系 并 不 依赖 于 t。 原 则 上 ， 可 以 使 用 t 作 为 每 个 时 间 步 的 额外 输入 ， 并 
让 学 习 带 在 友 现 任何 时 间 依 赖 性 的 同时 ， 在 不 同时 间 步 之 间 尽 可 能 多 地 
共 圣 。 相 比 在 每 个 t 使 用 不 同 的 条 件 概 率 分 布 已 经 好 很 多 了 ， 但 网 络 将 
Vs UE. TEL TIT CY EFT TEED 


为 了 完整 摘 述 将 RNN 作 为 图 模型 的 观点 ， 我 们 必须 描述 如 何 从 模型 采 
样 。 我 们 需要 执行 的 主要 操作 是 简单 地 从 每 一 时 间 步 的 条 件 分 布 采 样 。 
然而 ， 这 会 导致 额外 的 复杂 性 。RNN 必 须 有 某 种 机 制 来 确定 序列 的 长 
度 。 这 可 以 通过 多 种 方式 实现 。 


在 当 输 出 是 从 词汇 表 获 取 的 符号 的 情况 下 ， 我 们 可 以 添加 一 个 对 应 于 序 
列 末端 的 特殊 符号 (Schmidhuber, 2012) 。 当 产生 该 符号 时 ， 采 样 过 
程 停止 。 在 训练 集中 ， 我 们 将 该 从 写作 为 序列 的 一 个 额外 成 员 ， 即 紧 跟 
每 个 训练 样本 x 中 之 后 。 


男 一 种 选择 是 在 模型 中 引入 一 个 额外 的 Bernoulli 输 出 ， 表 示 在 每 个 时 间 
步 决 定 继续 生成 或 集 止 生成 。 相 比 癌 词汇 表 增 加 一 个 额外 和 人 符号， 这 种 方 
法 更 普 裔 ， 因 为 它 适 用 于 任何 RNN， 而 不 仪 仪 是 输出 从 号 序列 的 








RNN。 例 如 ， 它 可 以 应 用 于 一 个 产生 实数 序列 的 RNN。 新 的 输出 单元 
通常 使 用 sigmoid 单 元 ， 并 通过 交 文 燃 训 练 。 在 这 种 方法 中 ，sigmoid 被 
训练 为 最 大 化 正确 预测 的 对 数 似 然 ， 即 在 每 个 时 间 步 序列 决定 结束 或 继 


硝 定 序列 长 度 r 的 万 一 种 方法 是 将 一 个 额外 的 输出 添加 到 模型 并 预测 整 

数 T 本 刁 。 模 型 可 以 采 出 fr 的 什 ， 然 后 采 r 步 有 价值 的 数据 。 这 种 方法 需 

要 在 每 个 时 间 步 的 循环 更 新 中 增加 一 个 额外 输入 ， 使 得 循环 更 新 知 过 它 
是 任 古 徘 近 所 产生 序列 的 末尾 。 这 种 额外 的 输入 可 以 十 t 的 值 ， 也 可 以 

是 T-t 即 镜 下 时 间 步 的 数量 。 如 朵 没有 这 个 额外 的 输入 ，RNN 可 能 会 产生 
突然 结束 序列 ， 如 一 个 句子 在 最 终 完整 前 结束 。 此 方法 基于 分 解 


P(a™,.-- æ) = P(r) P(a™,--- , a | 7) (10.34) 


直接 预测 tr 的 例子 见 Goodfellow et al. (2014d) . 


10.2.4 基于 上 下 文 的 RNN 序 列 建 模 


上 一 节 描 述 了 没有 输入 x 时 ， 关 于 随机 变量 序列 y © 的 RNN 如 何 对 应 于 
有 向 图 模型 。 当 然 ， 如 式 〈10.8) 所 示 的 RNN 包 含 一 个 输入 序列 x , 

xx 。 一 般 情 况 下 ，RNN 人 允许 将 图 模型 的 观点 扩展 到 不 仅 代 表 y 
变量 的 联合 分 布 也 能 表示 给 定 x 后 y 条 件 分 布 。 如 在 第 6.2.1.1 节 的 前 馈 
网 络 情形 中 所 讨论 的 ， 任 何 代 表 变 量 P( y ; 9 ) 的 模型 都 能 被 解释 为 代表 
条 件 分 布 P(y | wo ) 的 模型 ， 其 中 o = 0 。 我 们 能 像 之 前 一 样 使 用 P( y 
| wm) 代表 分 布 P Cy | x PRA FERRER, (HE Soe KS KAY K 
数 。 在 RNN 的 情况 ， 这 可 以 通过 不 同 的 方式 来 实现 。 此 处 ， 我 们 回顾 最 
常见 和 最 明显 的 选择 。 

之 前 ， 我 们 已 经 讨论 了 将 t= 二 4...,t 的 向 量 x O 序列 作为 输入 的 RNN。 男 
一 种 选择 是 只 使 用 单个 同 量 x 作为 输入 。 当 x 是 一 个 固定 大 小 的 同和 量 
时 ， 我 们 可 以 简单 地 将 其 看 作 产 生 y 序列 RNN 的 额外 输入 。 将 额外 输入 
提供 到 RNN 的 一 些 常 见方 法 是 : 

(1) 在 每 个 时 刻 作 为 一 个 额外 输入 ， 或 


(2) EKIRIS hO, a 


(3) 结合 两 种 方式 。 


第 一 个 包 征 地 利用 的 方法 如 图 10.9 所 示 。 和 输入 x AVES CIAL th 
O 之 间 的 相互 作用 是 通过 新 引入 的 权重 矩阵 R 参数 化 的 ， 这 是 只 包含 y 
序列 的 模型 所 没有 的 。 同 样 的 乘积 六 R 在 每 个 时 间 步 作为 隐藏 单元 
的 一 个 额外 输入 。 我 们 可 以 认为 x PE CE > | R E o RAR 
地 用 于 每 个 隐藏 单元 的 一 个 新 偏 置 参数 。 权 重 与 输入 保持 独立 。 我 们 可 
以 认为 这 种 檬 型 采用 了 非 条 件 模 型 的 8， 并 将 w 代入 9 ， 其 中 o 内 的 
偏 置 参 数 现在 是 输入 的 函数 。 





图 10.9 PALER RE IA) ee x 映射 到 序列 了 Y 上 分 布 的 RNN。 这 类 RNN 适 用 于 很 多 任务 〈 如 图 
注 ) ， 其 中 单个 图 像 作 为 模型 的 输入 ， 然 后 产生 插 述 图 像 的 词 序 列 。 观 察 到 的 输出 序列 的 每 个 
eR yO 同时 用 作 输 入 (对 于 当前 时 间 步 ) 和 训练 期 间 的 目标 (对 于 前 一 时 间 步 ) 


RNN 可 以 接收 向 量 序列 x O 作为 输入 ， 而 不 是 仅 接收 单个 向 量 x 作为 输 
入 。 式 〈10.8) 描述 的 RNN 对 应 条 件 分 布 P(y3 n. yO | A, aO 
)， 并 在 条 件 独 立 的 假设 下 这 个 分 布 分 解 为 


[iP(y® | ped asa ®) (10.35) 
t 


HAMRI, RAIA AER ZU h EJT Zt A BER 
WIER, WE10.107R. ARER RRR y 序列 的 任意 概率 分 
布 。 这 种 给 定 一 个 序列 表示 万 一 个 序列 分 布 的 模型 的 还 是 有 一 个 限制 ， 
人 
这 种 限制 。 





图 10.10 ”将 可 变 长 度 的 x 值 序列 映射 到 相同 长 度 的 值 序列 上 分 布 的 条 件 循环 神经 网 络 。 对 比 
图 10.3， 此 RNN 包 含 从 前 一 个 输出 到 当前 状态 的 连接 。 这 些 连 接 允 许 此 RNN 对 给 定 x 的 序列 后 


相同 长 度 的 序列 上 的 任意 分 布 建 模 。 图 10.3 的 RNN 仅 能 表示 在 给 定 x 值 的 情况 下 ，y 值 彼此 务 
件 独立 的 分 布 


10.3 双 回 RNIN 
目前 为 止 ， 我 们 考虑 的 所 有 循环 神经 网 络 有 一 个 因果” 结构， 意味 着 在 





时 刻 ( 的 状态 只 能 从 过 去 的 序列 x Yo x (9 以 及 当前 的 输入 x O 捕获 信 
轧 。 我 们 还 讨论 了 霖 些 在 y 可 用 时 ， 人 允许 过 去 的 y 值 信息 影响 当前 状态 
的 模型 。 


然而 ， 在 许多 应 用 中 ， 我 们 要 输出 的 y O 的 预测 可 能 依赖 于 整个 输入 序 
列 。 例 如 ， 在 语音 识 列 中 ， 由 于 人肉 同 肥 音 ， 当 前 声音 作为 音 系 的 正确 解 
释 可 能 取决 于 未 来 儿 个 首 系 ， 甚 至 潜在 的 可 能 取决 于 未 来 的 几 个 词 ， 因 
为 词 与 附近 的 词 之 间 的 存在 语义 依赖 ， 如 来 当前 的 词 有 两 种 声学 上 合理 
的 解释 ， 我 们 可 能 要 在 更 远 的 未 来 《和 过 去 ) 寻找 信息 区 分 它们 。 这 在 
eic 
中 插 述 。 


双 回 循环 神经 网 络 〈 或 双 加 RNN ) 为 满足 这 种 需要 而 发 明 (Schuster 
and Paliwal, 1997) 。 它 们 在 需要 双 同 信息 的 应 用 中 非 音 成功 
(Graves, 2012) ， 如 手写 识别 (Graves et al. , 2008; Graves and 
Schmidhuber, 2009) 、 语 首 识 别 (Graves and Schmidhuber, 2005; 
Graves etal. 2013) 以 及 生物 信息 学 (Baldi etal., 1999) . 


顾名思义 ， 双 同 RNN 结 合 时 则 上 从 序列 起 点 开始 移动 的 RNN 和 为 一 个 
时 间 上 从 序列 末尾 开始 移动 的 RNN。 图 10.11 展 示 了 典型 的 双向 RNN， 
其 中 h 代表 通过 时 间 向 前 移动 的 子 RNN 的 状态 ，g © 代表 通过 时 间 向 
后 移动 的 子 RNN 的 状态 。 这 人 允许 输出 单元 o 能 够 计算 同时 依赖 于 过 去 
和 未 来 且 对 时 刻 { 的 输入 值 最 敏感 的 表示 ， 而 不 必 指 定 {t 周 围 固 定 大 小 的 
窗口 (这 是 前 僻 网 络 、 着 积 网 络 或 具有 固定 大 小 的 先行 缓存 右 的 常规 
RNN 所 必须 要 做 的 ) 。 
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图 10.11 ”典型 的 双向 循环 神经 网 络 中 的 计算 ， 意 图 学 习 将 输入 序列 x 映射 到 目标 序列 y (在 每 
个 步骤 (具有 损失 L (W ) 。 循 环 性 h 在 时 间 上 向 前 传播 信息 (向 右 )， 而 循环 性 g 在 时 间 上 向 后 


传播 信息 (向 左 ) 。 因 此 在 每 个 点 t， 输 出 单元 o O 可 以 受益 于 输入 nO 中 关于 过 去 的 相关 概要 
以 及 输入 g (0 中 关于 未 来 的 相关 概要 


这 个 想法 可 以 目 然 地 扩展 到 二 维 输入 ， 如 图 像 ， 由 4 个 RNN 组 成 ， 每 一 
个 沿 着 4 个 方向 中 的 一 个 计算 : 上、 下 、 左 、 右 。 如 果 RNN 能 够 学 习 到 
承载 长 期 信息 ， 那 在 二 维 网 格 每 个 点 Gj 的 输出 O ij WE Tt R — ARE 
HAIRS Jas EMA RT RAMA eon. MEERN, MH 
F AVRHIIRNNGE TANAAM A E, (EE fe] RE ES PIE TA FE ER 
期 横 同 的 相互 作用 (Visin et al. , 2015; Kalchbrenner et al. , 2015) 。 
KERE, OP REEINRNN, RRASA UL BREN A eI 
式 ， 计 算 日 底 同 上 到 每 一 层 的 输入 在 整合 模 同 相互 作用 的 特征 图 的 循 
环 传 播 之 前 ) o 


10.4 基于 编码 -解码 的 序列 到 序列 架构 


我 们 已 经 在 图 10.5 看 到 RNN 如 何 将 输入 序列 映射 成 固定 大 小 的 同 量 ， 在 
图 10.9 中 看 到 RNN 如 何 将 固定 大 小 的 同 量 映 射 成 一 个 序列 ， 在 图 10.3、 

图 10.4、 图 10.10 和 图 10.11 中 看 到 RNN 如 何 将 一 个 输入 序列 映射 到 等 长 
的 输出 序列 。 


本 节 我 们 讨论 如 何 训练 RNN， 使 其 将 输入 序列 映射 到 不 一 定 等 长 的 输出 
序列 。 这 在 许多 场景 中 都 有 应 用 ， 如 语音 识别 、 机 器 翻译 或 问答 ， 其 中 
训练 集 的 输入 和 输出 序列 的 长 度 通 常 不 相同 (虽然 它们 的 长 度 可 能 相 
%) 


我 们 经 癌 将 RNN 的 输入 称 为 “上下文 ?。 我 们 希望 产生 此 上 下 文 的 表示 
C。 这 个 上 下 文 C 可 能 是 一 个 概括 输入 序列 六 二 (x © ge (me) ) 的 向 量 
或 者 癌 量 序列 。 


用 于 映射 可 变 长 上 度 序 列 到 另 一 可 变 长 度 序 列 最 简单 的 RNN 架 构 最 初 由 

Cho et al. (2014a) 提出 ， 之 后 不 久 由 Sutskever et al. (2014) 独立 开 
及 ， 并 且 第 一 个 使 用 这 种 方法 获得 翻译 的 最 好 结果 。 前 一 系统 是 对 另 一 
个 机 需 翻 译 系 统 产 生 的 建议 进行 评分 ， 而 后 者 使 用 独立 的 循环 网 络 生 成 
翻译 。 这 些 作者 分 别 将 该 架构 称 为 编码 -解码 或 序列 到 序列 架构 ， 如 图 

10.12 所 示 。 这 个 想法 非常 人 简 早 : (1) ap FS HS Cencoder) Bic HY 45 
(reader) 或 输入 (input) RNN 处 理 输入 序列 。 编 但 需 输 出 上 下 文 


C CE ee eZ a TA AS AY Te PRB). (2) RAG es (decoder) 或 写 
NAX (writer) 或 输出 (output) RNN 则 以 固定 长 上 度 的 同 量 〈 见 图 
10.9) 为 条 件 产 生 输 出 序列 y = (wy(D,.…. yl) 。 这 种 架构 对 比 本 章 
前 儿 布 提出 的 架构 的 创新 书 处 在 于 长 度 n x 和 n y 可 以 彼此 不 同 ， 而 之 前 
的 架构 约束 n、 二 n ,二 +。 在 序列 到 序列 的 架构 中 ， 两 个 RNN 共 同 训练 以 
最 大 化 log P(y P,- ,y | 2... ,zz)) (关于 训练 集中 所 有 x 
和 ”对 的 平均 ) 。 编 码 器 RNN 的 最 后 一 个 状态 几 ， 通常 被 当 作 输入 的 
表示 C 并 作为 解码 硕 RNN 的 输入 。 


编码 从 
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图 10.12 “在 给 定 输入 序列 (xO, x,- xe) 的 情况 下 学 习 生 成 输出 序列 

(yD yD, yy) 的 编码 器 -解码 器 或 序列 到 序列 的 RNN 架 构 的 示例 。 它 由 读 取 输入 序 
列 的 编码 器 RNN 以 及 生成 输出 序列 〈 或 计算 给 定 输出 序列 的 概率 ) 的 解码 器 RNN 组 成 。 编 码 器 
RNN 的 最 终 隐 藏 状态 用 于 计算 一 般 为 固定 大 小 的 上 下 文 变量 C，C 表 示 输 入 序列 的 语义 概要 并 且 





VE ASIANS 2S RNN A HLA 


如 果 上 和 下文 C 是 一 个 同 量 ， 则 编码 器 RNN 只 是 在 第 10.2.4 节 擂 述 的 同 量 
到 序列 RNN。 正 如 我 们 所 见 ， 同 量 到 序列 RNN 人 至 少 有 两 种 接受 输入 的 
方法 。 输 入 可 以 被 提供 为 RNN 的 初始 状态 ， 或 连接 到 每 个 时 间 步 中 的 隐 
je Ao. IAA TA WES. 

X FAH AN ar il] 2 fe ig 1 BS ES AS YY Bee LA AB ISA) o 

此 架构 的 一 个 明显 不 足 是 ， 编 码 器 RNN 输 出 的 上 下 文 C 的 维度 太 小 而 难 
以 适当 地 概括 一 个 长 序列 。 这 种 现象 由 Bahdanau et al. (2015) 在 机 器 
翻译 中 观察 到 。 他 们 提出 让 C 成 为 可 变 长 度 的 序列 ， 而 不 是 一 个 固定 大 
小 的 同 量 。 此 外 ， 他 们 还 引入 了 将 序列 C 的 元 素 和 输出 序列 的 元 素 相 关 
联 的 注意 力 机 制 (attention mechanism) 。 读 者 可 在 第 12.4.5.1 节 了 解 更 
多 细节 。 

10.5 ”深度 循环 网 络 

大 多 数 RNN 中 的 计算 可 以 分 解 成 3 块 参数 及 其 相关 的 变换 : 

(1) 从 输入 到 隐藏 状态 。 

(2) 从 前 一 隐藏 状态 到 下 一 隐藏 状态 。 

(3) 从 隐藏 状态 到 输出 。 

根据 图 10.3 中 的 RNN 架 构 ， 这 3 个 块 都 与 单个 权重 和 矩阵 相关 联 。 换 句 话 
说 ， 当 网 络 被 展开 时 ， 每 个 块 对 应 一 个 浅 的 变换 。 能 通过 深度 MLP 内 单 
个 层 来 表示 的 变换 称 为 浅 变 换 。 通 常 ， 这 是 由 学 成 的 仿 射 变换 和 一 个 固 
定 非 线性 表示 组 成 的 变换 。 





(a) (b) (c) 


图 10.13 ”循环 神经 网 络 可 以 通过 许多 方式 变 得 更 深 (Pascanu etal., 2014a) . (a) KURIA 
状态 可 以 被 分 解 为 具有 层次 的 组 。(b) 可 以 同 输 入 到 隐藏 、 了 隐藏 到 隐藏 以 及 隐藏 到 输出 的 部 分 
引入 更 深 的 计算 〈 如 MLP) 。 这 可 以 延长 链接 不 同时 间 步 的 最 短路 径 。 〈c) 可 以 引入 跳跃 连接 
来 绥 解 路 径 延 长 的 效应 


在 这 些 操 作 中 引入 深度 会 有 利 吗 ?实验 证 据 (Graves et al. , 2013; 
Pascanu et al. , 2014a) 强烈 暗示 理应 如 此 。 实 验证 据 与 我 们 需要 足够 
ENR RE DAP BY Fs RO AEE, i A WB 

Schmidhuber (1992) . El Hihi and Bengio (1996) 或 Jaeger (2007a) ， 
了 解 更 早 的 关于 深度 RNN 的 研究 。 


Graves et al. (2013) 第 一 个 展示 了 将 RNN 的 状态 分 为 多 层 的 显 闭 好 
处 ， 如 图 10.13 (a》 所 示 。 我 们 可 以 认为 ， 在 图 10.13 (a) MRA 
构 中 较 低 的 层 起 到 了 将 原始 输入 转化 为 对 更 高 层 的 隐 世 状态 更 合适 表示 
的 作用 。Pascanu et al. (2014a) 更 进一步 提出 在 上 述 3 个 块 中 各 使 用 一 
个 单独 的 MLP《〈 可 能 是 深度 的 ) ， 如 图 10.13 O) MR. FERRE 
量 ， 我 们 建议 在 这 3 个 步 中 都 分 配 足够 的 容量 ， 但 增加 深度 可 能 会 因为 
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入 图 10.13 Cb) 的 额外 深度 导致 从 时 间 步 t 的 变量 到 时 间 步 t+1 的 最 短路 

径 变 得 更 长 。 例 如 ， 如 和 果 有 具有 单个 隐 羧 层 的 MLP 被 用 于 状态 到 状态 的 转 
换 ， 那 么 与 图 10.3 相 比 ， 我 们 就 会 加 倍 任 何 两 个 不 同时 间 步 变量 之 间 最 
短路 径 的 长 度 。 然 而 Pascanu et al. (2014a) 认为 ， 在 隐藏 到 隐藏 的 路 
径 中 引入 跳跃 连接 可 以 缓和 这 个 问题 ， 如 图 10.13 Cc) 所 示 。 


10.6 ”递归 神经 网 络 


递归 神经 网 络 久 代 表 循 环 网 络 的 另 一 个 扩展 ， 它 被 构造 为 深 的 树 状 结构 
而 不 是 RNN 的 链 状 结构 ， 因 此 是 不 同类 型 的 计算 图 。 递 归 网 络 的 典型 计 
算 图 如 图 10.14 所 示 。 递 归 神 经 网 络 由 Pollack (1990) 引入 ， 而 

Bottou (2011) 描述 了 这 次 网 络 的 淤 在 用 途 一 一 学 习 推 论 。 递 归 网 络 已 

成 功 地 应 用 于 输入 是 数据 结构 的 神经 网 络 (Frasconi et al. , 1997, 

1998) ， 如 目 然 语言 处 理 (Socher et al. , 2011a, c, 2013a) 和 计算 机 
视觉 CSocher etal., 2011b) 。 


递归 网 络 的 一 个 明显 优势 是 ， 对 于 具有 相同 长 度 r 的 序列 ， 深 度 〈 通 过 
非 线 性 操作 的 组 合 数量 来 衡量 ) 可 以 急剧 地 从 ft 减 小 为 O 〈logr) ， 这 可 
能 有 助 于 解决 长 期 依赖 。 一 个 悬而未决 的 问题 是 如 何以 最 佳 的 方式 构造 
树 。 一 种 选择 是 使 用 不 依赖 于 数据 的 树 结构 ， 如 平衡 二 叉 树 。 在 某 些 应 
用 领域 ， 外 部 方法 可 以 为 选择 适当 的 树 结构 提供 借鉴 。 例 如 ， 处 理 目 然 
语言 的 句子 时 ， 用 于 递归 网 络 的 树 结 构 可 以 被 固定 为 句子 语法 分 析 树 的 
结构 (可 以 由 目 然 语言 语法 分 析 程 序 提供 ) (Socher et al. , 2011a, 
c) 。 理 想 的 情况 下 ， 人 们 希望 学 习 桥 目 行 友 现 和 推 断 适合 于 任意 给 定 
输入 的 树 结 构 ， 如 (Bottou，2011〉 所 建议 。 





图 10.14 ”递归 网 络 将 循环 网 络 的 链 状 计算 图 推广 到 树 状 计算 图 。 可 变 大 小 的 序列 x 有 x QD 
,XxX (0 可 以 通过 固定 的 参数 集合 (权重 矩阵 UL V, W) 映射 到 固定 大 小 的 表示 (输出 0) 
该 图 展示 了 监督 学 习 的 情况 ， 其 中 提供 了 一 些 与 整个 序列 相关 的 目标 y 


递归 网 络 想法 的 变种 存在 很 多 。 例 如 ，Frasconi et al. (1997) 和 
Frasconi et al. (1998) 将 数据 与 树 结 构 相 关联 ， 并 将 输入 和 目标 与 树 的 
蛙 独 节点 相关 联 。 由 每 个 节点 执行 的 计算 无 须 是 传统 的 人 工 神 经 计算 
(所 有 输入 的 仿 射 变换 后 跟 一 个 单调 非 线性 ) 。 例如，Socher et al. 
(2013a) 提出 用 张 量 运算 和 双 线 性 形式 ， 在 这 之 前 人 们 已 经 发 现 当 概 
wae AEE Ale RA) 表示 时 ， 这 种 方式 有 利于 建 模 概念 之 间 的 联系 
(Weston et al. ，2010; Bordes etal. 2012) 。 


10.7 ”长 期 依赖 的 挑 成 


学 习 循 坏 网 络 长 期 依赖 的 数学 挑战 在 第 8.2.5 太 中 引入 。 根 本 问题 是 ， 经 
过 许多 阶段 传播 后 的 梯度 倾 问 于 消失 《大 部 分 情况 ) 或 爆炸 (很 少 ， 但 
对 优化 过 程 影 响 很 大 ) 。 即 使 我 们 假设 循环 网 络 征 参数 稳定 的 “可 存储 
wW, HAREDER) ， 但 长 期 依赖 的 困难 来 目 比 短期 相互 作用 指数 小 
的 权重 〈 涉 及 许多 Jacobian 相 乘 ) 。 许 多 资料 提供 了 更 深层 次 的 讨论 
(Hochreiter, 1991a; Doya, 1993; Bengio et al. , 1994b; Pascanu et 
al. , 2013a) > FExX— “HH, RIR SPAN AZ a. HR LP 
AA ot ARIK PS A A TIE 


循环 网 络 涉及 相同 函数 的 多 次 组 合 ， 每 个 时 间 步 一 次 。 这 些 组 合 可 以 导 
致 极端 非 线性 行为 ， 如 图 10.15 所 示 。 
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图 10.15 ”重复 组 合 函 数 。 当 组 合 许多 非 线 性 函数 《如 这 里 所 示 的 线性 tanh 层 ) 时 ， 结 果 是 高 度 
非 线 性 的 ， 退 单 大 多 数值 与 做 小 的 导数 相关 联 ， 也 有 一 些 上 其 有 大 导数 的 值 ， 以 及 在 增加 和 减 小 
之 间 的 多 次 交 谷 。 此 处 ， 我 们 绘制 从 100 维 隐 蕊 状态 降 到 单个 维度 的 线性 投影 ， 绘 制 于 y 轴 上 。x 
轴 是 100 维 空间 中 沿 着 随机 方 回 的 初始 状态 的 坐标 。 因 此 ， 我 们 可 以 将 该 图 视 为 融 维 函数 的 线性 
截面 。 曲 线 显 示 每 个 时 间 步 之 后 的 函数 ， 或 者 等 价 地 ， 转 换 函 数 被 组 合 一 定 次 数 之 后 
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Aho = W' ht (10.36) 


站 一 个 非常 简单 的 、 缺 少 非 线 性 激活 函数 和 输入 x 的 循环 神经 网 络 。 如 
FB.25 1S HHIR, ROMER AAA ER SRE. ER TOA 


hn? = (Ww) pA (10.37) 
而 当 W 符合 下 列 形式 的 特征 分 解 

W = QAQ' (10.38) 
其 中 Q 正 交 ， 循 环 性 可 进一步 简化 为 

h®) = QTA QRO (10.39) 


REE REIRA. SSCA AS Bl] REEERE, MELA 
一 的 就 会 激增 。 任 何不 与 最 大 特征 问 量 对 齐 的 h O 的 部 分 将 最 终 被 于 


弃 


这 个 问题 是 针对 循环 网 络 的 。 在 标量 情况 下 ， 想 象 多 次 乘 一 个 权重 w。 
ZA Rw 消失 还 是 爆炸 取决 于 w 的 幅 值 。 然 而 ， 如 果 每 个 时 刻 使 用 不 同 
权重 w © 的 非 循 环 网 络 ， 情 况 就 不 同 了 。 如 果 初 始 状 态 给 定 为 1， 那 么 
时 刻 t 的 状态 可 以 由 [ wO 给 出 。 假 设 w © 的 值 是 随机 生成 的 ， 各 自 独 
立 ， 且 有 0 均值 v\ 方 差 。 乘 积 的 方差 就 为 O(U7" ) 。 为 了 获得 某 些 期 望 的 
方差 x ”， 我 们 可 以 选择 单个 方差 为 v = WVv* 权重 。 因 此 ， 非 常 深 的 
前 馈 网 络 通过 精心 设计 的 比例 可 以 避免 梯度 消失 和 爆炸 问题 ， 如 
Sussillo (2014) 所 主张 的 。 


RNN 梯 上 度 消 失 和 爆炸 问题 是 由 不 同 研究 人 员 独 立 发 现 (Hochreiter， 

1991a; Bengio et al. , 1993, 1994b) 。 有 人 可 能 会 希望 通过 简单 地 停 
留 在 梯度 不 消失 或 爆炸 的 参数 空间 来 避免 这 个 问题 。 不 幸 的 是 ， 为 了 储 
存 记 忆 并 对 小 扰动 具有 和 鲁 棒 性 ，RNN 必 须 进入 参数 空间 中 的 梯度 消失 区 
域 (Bengio et al. , 1993, 1994b) 。 具 体 来 说 ， 每 当 模 型 能 够 表示 长 期 


MORE , KEHF EIEH EY 6 E (Ba SS ES BV) OPE EE het HAA B/E FG 
的 梯度 幅 值 )。 这 并 不 意味 着 这 是 不 可 能 学 习 的 ， 由 于 长 期 依赖 关系 的 
信号 很 容 多 被 短期 相关 性 产生 的 最 小 波动 隐 羧 ， 因 而 学 习 长 期 依赖 可 能 
需要 很 长 的 时 间 。 实 践 中 ，Bengio et al. (1994b) 的 实验 表明 ， 当 我 们 
增加 了 需要 捕获 的 依赖 关系 的 路 上 度 ， 基 于 梯度 的 优化 变 得 越 来 越 困 难 ， 
SGD 在 长 度 仅 为 10 或 20 的 序列 上 成 功 训练 传统 RNN 的 概率 迅速 变 为 0。 


将 循环 网 络 作 为 动力 系统 更 深入 探讨 的 资料 见 Doya (1993) ; Bengio et 
al. (1994b) ; Siegel-mann and Sontag (1995) 及 Pascanu et al. 
(2013b) 的 回顾 。 本 章 的 其 余部 分 将 讨论 目前 已 经 提出 的 降低 学 习 长 
期 依赖 〈 在 某 些 情况 下 ， 人 允许 一 个 RNN 学 习 横 跨 数 百 步 的 依赖 ) 难度 的 

不 同方 法 ， 但 和 学习 长 期 依赖 的 问题 仍 是 深度 学 习 中 的 一 个 主要 挑战 。 


10.8 回声 状态 网 络 


从 下 (直到 于 地 的 循环 权重 映射 以 及 从 x 包 到 六 (的 输入 权重 映射 是 循环 
网 络 中 最 难 学 习 的 参数 。 研 究 者 (Jaeger，2003; Maass et al. , 2002; 
Jaeger and Haas, 2004; Jaeger, 2007b) 提出 避免 这 种 困难 的 方法 古 设 
定 循环 隐藏 单 元 ， 使 其 能 很 好 地 捕捉 过 去 得 入 历史 ， 并 且 只 学 习 和 输出 权 
重 。 回 声 状 态 网 络 (echo state network) 或 ESN (Jaeger and Haas, 
2004; Jaeger, 2007b) ， 以 及 流体 状态 机 (liquid state machines) 
(Maass et al. , 2002) 分 别 独 立地 提出 了 这 种 想法 。 后 者 是 类 似 的 ， 只 
不 过 和 它 使 用 脉冲 神经 元 〈 二 值 输出 ) 而 不 是 ESN 中 的 连续 隐 基 单元 。 
ESN 和 流体 状态 机 都 被 称 为 储 层 计算 (reservoir computing ) 
(Lukoševičius and Jaeger, 2009) ， 因 为 隐藏 单元 形成 了 可 能 捕获 输入 
历史 不 同方 面 的 临时 特征 池 。 


储 层 计算 循环 网 络 类 似 于 核 机 右 ， 这 是 思考 它们 的 一 种 方式 : 它们 将 任 
意 长 度 的 序列 (到 时 刻 t 的 输入 历史 ) 上 映 射 为 一 个 长 度 固 定 的 癌 量 〈 循 
环 状态 h O ) ， 之 后 可 以 施加 一 个 线性 预测 算 子 〈 通 常 是 一 个 线性 回 
归 ) 以 解 凑 感 兴趣 的 问题 。 训 练 准 则 瓯 可 以 很 容易 地 设计 为 得 出 权重 的 
喇 函 数 。 例 如 ， 如 采 输 出 是 从 隐 茂 单元 到 得 出 目标 的 线性 回归 ， 训 练 准 
UREI RE, BFE, Wa AH HE A RA A ee R 
(Jaeger, 2003) . 


因此 ， 重 要 的 问题 是 : 如 何 设置 输入 和 循环 权重 ， 才 能 让 一 组 丰 军 的 历 


史 可 以 在 循环 神经 网 络 的 状态 中 表示? RARA SR eA 
环 网 络 视 为 动态 系统 ， 并 设 定 让 动态 系统 接近 稳定 边 绿 的 输入 和 循环 权 
E, 


最 初 的 想法 古 使 状态 到 状态 转换 函数 的 Jacobian 窍 阵 的 特征 值 接 近 1。 如 

第 8.2.5 贡 解释 ， 循 环 网络 的 一 个 重要 特征 吏 是 Jacobian 窍 阵 的 特征 值 说 

Tt 一 Tn 特别 重要 的 是 ， J 的 谱 半 径 (spectral 
ht 

radius ) 定义 为 特征 值 的 最 大 绝对 值 。 


为 了 解 谱 半径 的 影响 ， 可 以 考虑 反 回 传播 中 Jacobian 算 阵 J 不 随 t 改 变 的 
简单 情况 。 例 如 当 网 络 是 纯 线 性 时 ， 会 发 生 这 种 情况 。 假 设 J 特征 值 和 
对 应 的 特征 问 量 为 vx 。 考 虑 当 我 们 通过 时 间 癌 后 传播 梯度 癌 量 时 会 发 生 
什么 。 如 果 刚 开始 的 梯度 同 量 为 g ， 然 后 经 过 反 回 传播 的 一 个 步骤 后 ， 

我 们 将 得 到 Jg ，n 步 之 后 会 得 到 I "g 。 现 在 考虑 如 果 我 们 向 后 传播 扰 
动 版 本 的 g 会 发 生 什 么 。 如 果 刚 开 nig 45y, 一 步 之 后 ， 我 们 会 得 到 
J(g+6v)。n 步 之 后 ， 我 们 将 得 到 J"(g+5v)。 由 此 可 以 看 出 ， 由 g 开 
始 的 反 回 传播 和 由 g +5v 开始 的 反 同 传播 ，n 步 之 后 偏离 5 Jav 。 如 果 v 
选择 为 J 特征 值 M 对 应 NE Sere ISA TEBE 2 Fe Jacobiante 
Se ee fe Ea. RAA ARRAT OP SEBS | 入 | 了 。 当 Vv 对 
应 于 最 大 特征 值 | 入 | ， 初始 扰动 为 8 时 这 个 扰动 达到 何人 的 最 宽 分 离 


当 | 入 | 二 1， 偏 差 6 | 入 | ， 就 会 指数 增长 。 当 | 入 | 1， 偏差 就 会 变 得 
指数 减 小 。 


当然 ， 这 个 例子 假定 Jacobian 算 阵 在 每 个 时 间 步 是 相同 的 ， 即 对 应 于 没 
有 非 线 性 循环 网 络 。 当 非 线 性 存在 时 ， 非 线性 的 导数 将 在 许多 时 间 步 后 
接近 堆 ， 并 有 助 于 防止 因 过 大 的 说 半径 而 导致 的 原 炸 。 事 实 上 ， 天 于 回 
声 状态 网 络 的 最 近 工 作 提 倡 使 用 远大 于 1 的 谐 半 径 (Yildiz et all ， 
2012; Jaeger, 2012) 。 
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性 的 正 同 传播 的 网 络 ， 其 状态 为 LD) — pOl wy. 


如 果 线 性 映射 WzT 在 L 2 范 数 的 测度 下 总 是 缩小 h ， 那 么 我 们 说 这 个 映 


射 是 收缩 〈contractive) A. 44h F, WWM hO 到 h OY 的 映射 
是 收缩 的 ， 因 此 小 变化 在 每 个 时 间 步 后 变 得 更 小 。 当 我 们 使 用 有 限 精 度 
(如 32 位 整数 ) 来 存储 状态 问 量 时 ， 必 人 然 会 使 得 网 络 态 挥 过 去 的 信息 。 


Jacobian 和 矩阵 告诉 我 们 h © 一 个 微小 的 变化 如 何 向 前 一 步 传播 ， 或 等 价 
地 ，h (0 的 梯度 如 何 癌 后 一 步 传播 。 需 要 注意 的 是 ，W 和 J 都 不 需要 
是 对 称 的 〈 尽 管 它们 是 实 方 阵 ) ， 因 此 它们 可 能 有 复 的 特征 值 和 特征 辣 
量 ， 其 中 虚数 分 量 对 应 于 洲 在 的 振荡 行为 《如 果 友 代 地 应 用 同一 
Jacobian) 。 即 使 疡 己 或 玉昌 中 有 趣 的 小 变化 在 反 辐 传播 中 是 实 值 的 ， 
它们 仍 可 以 用 这 样 的 复数 基 表 示 。 重 要 的 是 ， 当 问 量 来 以 窍 阵 时 ， 这 些 
复数 基 的 系数 幅 值 (复数 的 绝对 值 ) 会 发 生 什 么 变化 。 幅 值 大 于 1 的 特 
ro a (如 果 反 复 应 用 则 指数 增长 ) 或 收缩 〈 如 果 反 复 应 用 则 
日数 减 小 ) 。 


非 线 性 映射 情况 时 ，Jacobian 会 在 每 一 步 任 意 变 化 。 因 此 ， 动 态 量变 得 
更 加 复杂 。 然 而 ， 一 个 小 的 初始 变化 多 步 乙 后 仍然 会 变 成 一 个 大 的 变 
化 。 纯 线性 徘 线性 情况 的 一 个 不 同 之 处 在 于 便 用 压缩 非 线 性 《〈 如 
tanh) FUEGO AeA. TER, BERTIE A, AA 
传播 的 动态 量 仍然 可 能 无 界 ， 例 如 ， 当 tanh 序 列 都 在 它们 状态 中 间 的 线 
性 部 分 ， 并 且 由 谐 半 径 大 于 1 的 权重 定 阵 连接 。 然 而 ， 所 有 tanh 单 元 同 
时 位 于 它们 的 线性 激活 后 古 非 第 罕见 的 。 


器 声 状态 网 络 的 介 上 略 是 简 早 地 固定 权 香 ,使 其 具有 一 定 的 详 半 人 径 如 3， 
其 中 信息 通过 时 间 前 癌 传 播 ， 但 会 由 于 饱和 非 线 性 时 元 “如 tanh》〉 的 稳 
定 作 用 而 不 会 焊 炸 。 


最 这 ， 已 经 有 人 研究 表明 ， 用 于 设置 ESN 权 重 的 技术 可 以 用 来 初始 化 完全 
可 训练 的 循环 网 络 的 权重 (通过 时 间 有 反问 传 播 来 训练 隐藏 到 隐 尼 的 循环 
权重 ) ， 帮 助 学 习 长 期 依赖 CSutskever, 2012; Sutskever et al. , 
2013) 。 在 这 种 设 定 下 ， 结 合 第 8.4 节 中 稀 足 初始 化 的 方案 ， 设 置 1.2 的 
AT) OB AE Ae MES 
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间 尺 度 上 操作 并 能 把 遥远 过 去 的 信息 更 有 效 地 传递 过 来 。 存 在 多 种 同时 
构建 粗细 时 间 尺 度 的 策略 。 这 些 策略 包括 在 时 间 轴 增加 跳跃 连接 ，“ 渗 
漏 单 元 ”使 用 不 同时 间 禹 数 整合 信号 ， 并 去 除 一 些 用 于 建 模 细 粒 度 时 间 
尺度 的 连接 。 


10.9.1 时 间 维 度 的 跳跃 连接 


增加 从 啤 远 过 去 的 变量 到 目前 变量 的 直接 连接 是 得 到 粗 时 间 尺 度 的 一 种 
方法 。 使 用 这 样 跳跃 连接 的 想法 可 以 退 调 到 Lin et al. (1996) , XZE 
向 前 馈 网 络 引 入 延迟 的 想法 (Lang and Hinton，1988) 。 在 普通 的 循环 
网 络 中 ， 循 环 从 时 刻 {t 的 单元 连接 到 时 刻 t+1 单 元 。 构 造 较 长 的 延 到 循环 
网 络 是 可 能 的 (Bengio, 1991) 。 


正如 我 们 在 第 8.2.5 节 看 到 ， 梯 上 度 可 能 关于 时 间 步 数 呈 指数 消失 或 侍 炸 。 
(Lin et al. , 1996) 引入 了 d 延 时 的 循环 连接 以 减轻 这 个 问题 。 现 在 导 


= 
数 指数 减 小 的 速度 与 A 相关 而 不 是 Tr。 既 然 同时 存在 延迟 和 单 步 连 


接 ， 梯 度 仍 可 能 成 指数 爆炸 。 这 允许 学 习 算 法 捕获 更 长 的 依赖 性 ， 但 
不 是 所 有 的 长 期 依赖 都 能 在 这 种 方式 下 良好 地 表示 


10.9.2” 渗 漏 单元 和 一 系列 不 同时 间 尺 度 


获得 导数 乘积 接近 1 的 另 一 方式 是 设置 线性 目 连接 单元 ， 并 且 这 些 连 接 
的 权重 接近 1.。 


我 们 对 某 些 v 值 应 用 更 新 h 则 -ap (D+(1-o)v © 累积 一 个 滑动 平均 值 hn © 
， 其 中 ao 是 一 个 从 hkD 到 p © 线性 自 连接 的 例子 。 当 a 接近 1 时 ， 滑 动 平 
均值 能 记 住 过 去 很 长 一 段 时 间 的 信息 ， 而 当 a 接 近 0， 天 于 过 去 的 信息 被 
迅速 丢 并 。 线 性 目 连 接 的 隐 医 单元 可 以 模拟 请 动 平 均 的 行为 。 这 种 隐 蕊 
单元 称 为 渗 漏 单元 leaky unit) 。 


d 时 间 步 的 跳跃 连接 可 以 硝 你 单元 总 能 被 d 个 时 间 步 前 的 那个 值 影响 。 使 
用 权重 接近 1 的 线性 目 连 接 是 确保 该 单元 可 以 访问 过 去 值 的 不 同方 式 。 
线性 目 连 接 通 过 调 记 实 值 a 更 平 清 灵活 地 调整 这 种 效 朱 ， 而 不 是 调整 整 
数 信 的 跳跃 长 度 。 


这 个 想法 由 Mozer (1992) 和 El Hihi and Bengio (1996) 提出 。 在 回声 
状态 网 络 中 ， 渗 漏 单 元 也 被 发 现 很 有 用 Jaeger et al. ，2007) 。 


我 们 可 以 通过 两 种 基本 策略 设置 滩 漏 单元 使 用 的 时 间 和 常数 。 一 种 策略 是 
手动 将 其 固定 为 常数 ， 例 如 在 初始 化 时 从 某 些 分 布 采 样 它 们 的 值 。 另 一 
种 策略 是 使 时 间 和 常数 成 为 目 由 变量 ， 并 学 习 出 来 。 在 不 同时 间 尺 度 使 用 
这 样 的 渗 漏 单元 似乎 能 帮助 学 习 长 期 依赖 (Mozer，1992; Pascanu et al. 
, 2013a) 。 


10.9.3 ”删除 连接 


处 理 长 期 依赖 的 另 一 种 方法 是 在 多 个 时 间 尺 度 组 织 RNN 状 态 的 想法 (El 
Hihi and Bengio，1996) ， 信 息 在 较 慢 的 时 间 尺 上 度 上 更 容易 长 距离 流 
动 。 


这 个 想法 与 之 前 讨论 的 时 间 维 度 上 的 跳跃 连接 不 同 ， 因 为 它 涉及 主动 删 
除 长 度 为 一 的 连接 并 用 更 长 的 连接 葵 换 它们 。 以 这 种 方式 修改 的 早 元 被 
迫 在 长 时 间 斥 度 上 运作 。 而 通过 时 间 跳 跃 连接 是 添加 边 。 收 到 这 种 新 连 
接 的 单元 ， 可 以 学 习 在 长 时 间 尺 度 上 运作 ， 但 也 可 以 选择 专注 于 目 己 其 
他 的 短期 连接 。 


强制 一 组 循环 单元 在 不 同时 间 尺 度 上 运作 有 不 同 的 方式 。 一 种 选择 是 使 
循环 单元 变 成 渗 漏 单元 ， 但 不 同 的 单元 组 关联 不 同 的 固定 时 间 尺 度 。 这 
由 Mozer (1992) 提出 ， 并 被 成 功 应 用 于 Pascanu et al. (2013a) . A 
种 选择 是 使 显 式 日 离散 的 更 新 发 生 在 不 同 的 时 则 ， 不 同 的 单元 组 有 不 同 
的 频率 。 这 是 El Hihi and Bengio (1996) 和 Koutnik et al. (2014) 的 方 
法 。 它 在 一 些 基 准 数 据 集 上 表现 不 错 。 


10.10 ”长 短期 记忆 和 其 他 门 控 RNN 

本 书 撰 写 之 时 ， 实 际 应 用 中 最 有 效 的 友 列 模型 称 为 门 控 RNN (gated 
RNN) 。 包 括 基于 长 短期 记忆 dong short-term memory) 和 基于 门 控 
循环 单元 (gated recurrent unit) 的 网 络 。 


像 渗 漏 音 元 一 样 ， 门 控 RNN 想 法 也 是 基于 生成 通过 时 间 的 路 径 ， 其 中 导 
数 既 不 消失 也 不 友 生 灯 炸 。 渗 源 单 元 通过 手动 选择 弟 量 的 连接 权 香 或 参 


数 化 的 连接 权重 来 达到 这 一 目的 。 门 控 RNN 将 其 推广 为 在 每 个 时 间 步 都 
可 能 改变 的 连接 权重 。 


渗 漏 单元 允许 网 络 在 较 长 持续 时 间 内 积累 信息 《〈 诸 如 用 于 特定 特征 或 次 
WAR) 。 然 而 ， 一 旦 该 信息 被 使 用 ， 让 神经 网 络 遗 态 旧 的 状态 可 能 是 
有 用 的 。 人 例如， 如果 一 个 序列 是 由 子 序列 组 成 ， 我 们 和 硕 望 渗 漏 单元 能 在 
各 子 序 列 内 积 票 线索， 需要 将 状态 设置 为 0 以 筷 记 旧 状 态 的 机 制 。 我 们 
共和 望 神经 网 络 学 会 决定 何 时 清除 状态 ， 而 不 是 手动 决定 。 这 就 是 门 控 
RNN 有 要 做 的 事 。 


10.10.1 LSIM 


引入 目 循 环 的 巧妙 构思 ， 以 产生 樟 度 长 时 间 持 续 流 动 的 路 径 是 初始 长 短 
期 记忆 Cong short-term memory, LSTM) 模型 的 核心 页 献 (Hochreiter 
and Schmidhuber, 1997) 。 其 中 一 个 关键 扩展 是 使 自 循 环 的 权重 视 上 下 
文 而 定 ， 而 不 是 固定 的 《Gers et al. , 2000) 。 门 控 此 自 循环 〈 由 另 一 
个 隐藏 单 元 控制 ) 的 权重 ， 累 积 的 时 间 尺 虚 可 以 动态 地 改变 。 在 这 种 情 
况 下 ， 即 使 是 具有 固定 参数 的 LSTM， 宗 积 的 时 间 尺 度 也 可 以 因 输 入 序 

列 而 改变 ， 因 为 时 间 和 常数 是 模型 本 时 的 输出 。LSTM 己 经 在 许多 应 用 中 

取得 重大 成 功 ， 如 无 约束 手写 识别 (Graves et al. , 2009) 、 语 首 识 别 
(Graves et al. ，2013; Graves and Jaitly, 2014) 、 手 写生 成 〈Graves， 

2013) 、 机 器 翻译 CSutskever et al. , 2014) 、 为 图 像 生成 标题 (Kiros 
et al. , 2014b; Vinyals et al. , 2014b; Xu et al. , 2015) 和 解析 
(Vinyals etal. , 2014a) 。 


LSTM 块 如 图 10.16 所 示 。 在 浅 循环 网 络 的 架构 下 ， 相 应 的 本 问 传 播 公 式 
如 下 。 更 深 的 架构 也 被 成 功 应 用 (Graves etal., 2013; Pascanuetal. , 
2014a) 。LSTM 循 环 网 络 除了 外 部 的 RNN 循 环 外 ， 还 上 只 有 内 部 

的 “LSTM 细 胞 ”循环 〈 自 环 ) ， 因 此 LSTM 不 是 简单 地 加 输入 和 循环 单 
元 的 仿 射 变换 之 后 施加 一 个 逐 元 际 的 非 线 性 。 与 普通 的 循环 网 络 类 似 ， 
每 个 单元 有 相同 的 输入 和 输出 ， 但 也 有 更 多 的 参数 和 控制 信息 流动 的 门 
控 单 元 系统 。 最 重要 的 组 成 部 分 是 状态 单元 s"” ， 与 前 一 节 讨论 的 渗 漏 
早 元 有 类 似 的 线性 日 环 。 然 而 ， 此 处 日 环 的 权重 (或 相关 联 的 时 间 委 
Bl) Hits!) (forget gate) fO 控制 (时刻 t 和 细胞 1) ， 由 sigmoid 单 元 
将 权重 设置 为 0 和 1 之 间 的 值 : 


得 出 
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ee 
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wh 
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单元 。 这 里 使 用 常规 的 人 工 神经 元 计算 输入 特征 。 如 果 sigmoid 和 输入 门 允 许 ， 它 的 值 可 以 累加 到 
状态 。 状 态 单 元 具有 线性 自 循环 ， 其 权重 由 遗 扎 门 控制 。 细 胞 的 输出 可 以 被 输出 门 关 闭 。 所 有 
门 控 单元 都 上 共有 sigmoid 非 线性 ， 而 输入 单元 可 具有 任意 的 压缩 非 线性 。 状 态 单元 也 可 以 用 作 门 
探 单元 的 额外 输入 。 黑 色 方 块 表示 单个 时 间 步 的 延迟 








sP =o(i + DU + WaS) (10.40) 
J J 


其 中 x 必 是 当前 输入 向 量 ， ery hg ee hi 包含 所 有 LSTM 
细胞 的 输出 。 bf, Uf, Wi 分 别 是 偏 置 、 输 入 权重 和 遗忘 门 的 循环 权 
重 。 机 其 中 有 一 个 条 件 的 目 环 
权重 fO, 


s”) = fos x a5 gP o(b; E y U; jet” z5 >, Wight? ) (10.41) 


BHb. U., W 4p 5illeeLSTMZH SEF ee WAREM E 
环 权 重 。 外 部 输入 门 Cexternal input gate) 单元 ge” 以 类 似 遗 扎 门 “使 
用 sigmoid 获 得 一 个 0 和 1 之 则 的 值 〉 的 方式 更 莉 ， 但 有 目 和 喘 的 参数 : 


gf? = 0(08 +S a +> Wh (10.42) 
J J 


LSTM 细 胞 的 输出 hW 也 可 以 由 输出 门 Coutput gate) qO 关闭 (使 用 
sigmoid 单 元 作为 门 控 ) : 


h” = tanh (s) g” (10.43) 


gf? = oà +Y Up ja)? +Y We nf”) (10.44) 
j J 


KP b’, UP, We Daha WARNEN ST TIBIAE. EX 
些 变 体 中 ， 可 以 选择 使 用 细胞 状态 s" ”作为 额外 的 输入 《及 其 权重 ) ， 
输入 到 第 i 个 单元 的 3 个 门 ， 如 图 10.16 所 示 。 这 将 需要 3 个 额外 的 参数 。 


LSTM 网 络 比 简单 的 循环 架构 更 易于 学 习 长 期 依赖 ， 先 是 用 于 测试 长 期 
依赖 学 习 能 力 的 人 工 数 据 集 (Bengio et al. , 1994c; Hochreiter and 
Schmidhuber, 1997; Hochreiter etal. ，2001)〉， 然 后 是 在 具有 挑战 性 的 
序列 处 理 任务 上 获得 最 先进 的 表现 (Graves, 2012, 2013; Sutskever et 
al. , 2014) 。LSTM 的 变 体 和 替代 也 已 经 被 研究 和 使 用 ， 这 将 在 下 文 进 
行 讨论 。 


10.10.2 其 他 门 控 RNN 


LSTM 架 构 中 哪些 部 分 是 真正 必需 的 ?还 可 以 设计 哪些 其 他 成 功 架 构 允 
许 网 络 动 态 地 控制 时 间 尺 上 度 和 不 同 单元 的 遗 环行 为 ? 


最 近 关 于 门 控 RNN 的 工作 给 出 了 这 些 问题 的 某 些 答案 ， 其 单元 也 被 称 为 
门 探 循环 单元 或 GRU (Cho et al. , 2014c; Chung et al. , 2014, 
2015a; Jozefowicz et al. , 2015; Chrupala et al. , 2015) 。 与 LSTM 的 
FEED Fill ae BRS 28 2A DR] EY Pl] gs FA PIA AS CY RE o 
更 新 公式 如 下 : 


h” = uP pe) a3 (1 — ul )o(0, a 2 Ui jx” + J Ware ae) (10.45) 
j j 


j 
j 
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ul) =o( + SoU a + wh) (10.46) 
j j 


和 


Pa a(o; ra +S wehe) (10.47) 
J J 
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换 并 完全 忽略 它 〈 在 另 一 个 极端 ) 。 复 位 门 控制 当前 状态 中 哪些 部 分 用 
于 计算 下 一 个 目标 状态 ， 在 过 去 状态 和 未 来 状态 之 间 引 入 了 附加 的 非 线 
性 效应 。 


围绕 这 一 主题 可 以 设计 更 多 的 变种 。 例 如 复位 门 (或 遗忘 门 ) 的 输出 可 
以 在 多 个 隐 茂 单元 间 共 享 。 或 者 ， 全 局 门 的 滋 积 emi BAN oc, 
例如 整 一 层 ) 和 一 个 局 部 门 〈 每 单元 ) 可 用 于 结合 全 局 控制 和 局 部 控 
制 。 然 而 ， 一 些 调查 发 现 这 些 LSTM 和 GRU 架 构 的 变种 ， 在 广泛 的 任务 
中 难以 明显 地 同时 击败 这 两 个 原始 架构 (Greff etal., 2015; Jozefowicz 
etal., 2015) > Greff etal. (2015) 发 现 其 中 的 关键 因素 是 遗忘 门 ， 而 
Jozefowicz et al. (2015) 发 现 同 LSTM 迁 态 门 加 入 1 的 仿冒 (由 Gers et 
al. (2000) 提倡 ) 能 让 LSTM 变 得 与 已 探索 的 了 最 佳 变 种 一 样 健壮 。 


10.11 优化 长 期 依赖 


我 们 已 经 在 第 8.2.5 节 和 第 10.7 节 中 接 述 过 在 许多 时 间 步 上 优化 RNN 时 友 
生 的 梯度 消失 和 爆炸 的 问题 。 


HH Martens and Sutskever (2011) 提出 了 一 个 有 趣 的 想法 是 ， 二 阶 导数 可 
能 在 一 阶 导 数 消失 的 同时 消失 。 二 阶 优化 算法 可 以 大 致 被 理解 为 将 一 阶 
导数 除 以 二 阶 寻 数 〈 在 更 高 维 数 ， 由 梯度 乘 以 Hessian 的 乌 ) 。 如 果 二 阶 
导数 与 一 阶 导 数 以 类 似 的 速率 收缩 ， 那 么 一 阶 和 二 阶 导 数 的 比率 可 保持 
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Sutskever (2011) 发 现 及 用 二 阶 方 法 的 不 错 结 果 。 之 后 ，Sutskever et al. 
(2013) 发 现 使 用 较 简 单 的 方法 可 以 达到 类 似 的 结果 ， 例 如 经 过 谨慎 初 
始 化 的 Nesterov 动 量 法 。 更 详细 的 内 容 参 考 Sutskever (2012) . MHF 
LSTM 时 ， 这 两 种 方法 在 很 大 程度 上 会 被 单纯 的 SGD (甚至 没有 动量 ) 

取代 。 这 是 机 器 学 习 中 一 个 延续 的 主题 ， 设 计 一 个 易于 优化 模型 通常 比 
设计 出 更 加 强大 的 优化 算法 更 容易 。 


10.11.1 截断 梯度 


如 第 8.2.4 节 讨论 ， 强 非 线 性 函数 (如 由 许多 时 间 步 计算 的 循环 网 络 ) 往 
往 倾 回 于 非常 大 或 非常 小 幅 厦 的 梯度 。 如 图 8.3 和 图 10.17 所 示 ， 我 们 可 
以 看 到 ， 目 标 函 数 《〈《 作 为 参数 的 函数 ) 存在 一 个 伴随 “ 巷 岩 ”的 “地 形 ”: 

营 且 相当 平坦 区 域 被 目标 函数 变化 快 的 小 区 域 隅 开 ， 形 成 了 一 种 巧 岩 。 


这 了 叶 致 的 困难 是 ， 当 参数 柳 度 非 第 大 时 ， 标 度 下 降 有 的 参数 更 新 可 以 将 参 
数 抛 出 很 远 ， 进 入 目标 函数 较 大 的 区 域 ， 到 达 当 前 解 所 做 的 努力 变 成 了 
无 用 功 。 标 上 度 告诉 我 们 ， 围 统 当 前 参数 的 无 穷 小 区 域内 最 速 下 降 的 方 
器 。 这 个 无 穷 小 区 域 之 外 ， 代 价 函 数 可 能 开始 党 曲线 育 面 而 上 。 更 新 必 
须 被 选择 为 足够 小 ， 以 避免 过 分 穿越 回 上 的 曲面 。 我 们 通 第 使 用 腾 减 速 
RE CWS TSIN S28, HIERN RA ARSON S48. war 
相对 线性 的 地 形 部 分 的 步 长 经 党 在 下 一 步 进 入 地 形 中 更 加 要 曲 的 部 分 时 
变 得 个 适合 ， 会 导致 上 赵 运 动 。 


BOA MT 使 用 截断 
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图 10.17 梯度 截断 在 有 两 个 参数 w 和 也 的 循环 网 络 中 的 效果 示例 。 梯 度 截 断 可 以 使 梯度 下 降 在 
极 陡 崩 的 其 是 附近 更 合理 地 执行 。 这 些 陡 赠 的 晤 恒通 沿 发 生 在 循环 网 络 中 ， 位 于 循环 网 络 近 似 
线性 的 附近 。 惹 尾 在 时 间 步 的 数量 上 呈 指 数 地 陡峭 ， 因 为 对 于 每 个 时 间 步 ， 权 重 和 矩阵 都 和 目 乘 一 
Ro E) 没有 梯度 截断 的 梯度 下 降 越 过 这 个 小 峡谷 的 奔 部 ， 然 后 从 巷 恒 面 接收 非常 大 的 榜 

上 度 。 大 梯度 灾难 性 地 将 参数 推 到 图 的 轴 外 。 CA) 使 用 梯度 截断 的 梯度 下 降 对 悬 居 的 反应 更 温 
和 。 当 它 上 升 到 巷 症 面 时 ， 步 长 受到 限制 ， 使 得 它 不 会 被 推出 徘 近 解 的 陡峭 区 域 。 经 Pascanu et 
al. (2013a) 许可 改编 此 图 


一 个 简单 的 解决 方案 已 被 从 业者 使 用 多 年 : TERE = Cclipping the 
gradient) 。 此 想法 有 不 同 实 例 CMikolov, 2012; Pascanu et al. , 
2013a) 。 一 种 选择 是 在 参数 更 新 之 前 ， 逐 元 素 地 截断 小 批量 产生 的 参 
数 梯 度 〈Mikolov，2012) 。 为 一 种 是 在 参数 更 新 之 前 截断 楷 上 度 g WG 
žl g || (Pascanu et al. , 2013a) : 














if ||gl| >v (10.48) 


gu 


g — 一 一 (10.49) 
|gl| 


其 中 v 是 范 数 上 界 ， g 用 来 更 新 参数 。 因 为 所 有 参数 〈 包 括 不 同 的 参数 
组 ， 如 权重 和 偏 置 ) 的 梯度 被 单个 缩放 因子 联合 重 整 化 ， 所 以 后 一 方法 
具有 的 优点 是 保证 了 每 个 步骤 仍然 是 在 梯度 方向 上 的 ， 但 实验 表明 两 种 
ERX U. BIRBR Fi 5 ASCE AAI PB, Zoe Eye 
BUX, SAE WY Al Sey A EAE GA FR. Ag FE Be at AT 
梯度 爆炸 时 的 有 害 一 步 。 事 实 上 ， 当 梯度 大 小 高 于 病 值 时 ， 即 使 是 采取 
fay ELAS BEAL AF REE LES LE E.R ESE, BBE BU 
上 为 Ihf 或 Nan 无穷大 或 不 是 一 个 数字 ) ， 则 可 以 采取 大 小 为 v 的 随机 

一 步 ， 通 常会 离开 数值 不 稳定 的 状态 。 截 断 每 小 批量 梯度 范 数 不 会 改变 
单个 小 批量 的 梯度 方向 。 然 而 ， 许 多 小 批量 使 用 范 数 截 断 梯度 后 的 平均 
(BANS Ia) TT SBE CEA RA SE ITT RE) AUB. K 
导数 范 数 的 样本 ， 和 像 这 样 的 出 现在 同一 小 批量 的 样本 ， 其 对 最 终 方 辐 
的 页 献 将 消失 。 不 像 传 统 小 批量 构 度 下 降 ， 其 中 真实 梯度 的 方 回 是 等 

所 有 小 批量 梯度 的 平均 。 换 句 话说 ， 传 统 的 随机 梯度 下 降 使 用 梯 撒 的 无 
偏 估 计 ， 而 与 使 用 数 截断 的 梯度 下 降 引 入 了 经 验 上 是 有 用 的 局 发 式 偏 
置 。 通 过 逐 元 际 和 截断， 更 新 的 方 加 与 真实 梯度 或 小 批量 的 樟 上 度 不 再 对 

齐 ， 但 是 它 仍然 是 一 个 下 降 方向 。 还 有 学 者 提出 (Graves, 2013) GH 
对 于 隐 羧 单元 ) 截断 反 辐 传播 柳 上 度 ， 但 没有 公布 与 这 些 变种 之 间 的 比 

较 。 我 们 推出， 所 有 这 些 方法 表现 类 似 。 


10.11.2 引导 信息 流 的 正则 化 


梯度 截断 有 助 于 人 处理 爆炸 的 梯度 ， 但 它 无 助 于 消失 的 梯度 。 为 了 解决 消 

eae 问题 并 更 好 地 捕获 长 期 依赖 ， 我 们 讨论 了 如 下 想法 : 在 展开 循 
架构 的 计算 图 中 ， 沿 着 与 弧 边 相关 联 的 梯度 乘积 接近 1 的 部 分 创建 路 

在 第 10.10 节 中 已 经 讨论 过 ， 实 现 这 一 点 的 一 种 方法 是 使 用 LSTM 以 

及 其 他 日 循环 和 门 控 机 制 。 另 一 个 想法 是 正则 化 或 约束 参数 ， 以 引 
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一 样 大 。 在 这 个 目标 下 ，Pascanu etal. (2013a) 提出 以 下 正则 项 : 


(Vye | L)- 


2 
Q = > [Vami a (10.52) 
| IVawL| 


计算 这 一 梯度 的 正则 项 可 能 会 出 现 困 难 ， 但 Pascanu et al. (2013a) 提 
出 可 以 将 后 向 传播 向 量 V) 也 考虑 为 恒 值 作 为 近似 〈 为 了 计算 正则 化 
的 目的 ， 疫 有 必要 通过 它们 同 后 传播 ) 。 使 用 该 正则 项 的 实验 表明 ， 如 
Se PTE a AAT CAD ERR ITE) 相 结合 ， 该 正则 项 可 以 显赫 地 
增加 RNN 可 以 学 习 的 依赖 路 度 。 梯 度 和 截断 特别 重要 ， 因 为 它 保 挝 了 娄 炸 
人 QU RICA Bh FET, EB ES BE ig Se SJ AY 
Uie 


这 种 方法 的 一 个 主要 弱点 是 ， 在 处 理 数据 元 余 的 任务 时 如 语言 模型 ， 它 
并 不 像 LSTM 一 样 有 效 。 


10.12 外 显 记 忆 





鲁能 需要 知识 并 且 可 以 通过 学 习 获 取 知 识 ， 这 已 促使 大 型 深度 架构 的 友 
Reo TAIN, AWE ANI AM RRS. AEA RESIN. RRA 
并 且 难 以 用 语言 表达 一 一 比如 怎么 行走 或 独 与 猪 的 样子 有 什么 不 同 。 其 
他 知识 可 以 是 明确 鸭 、 可 陈述 的 以 及 可 以 相对 简单 地 使 用 词语 表达 
每 天 利 识 性 的 知识 ， 如 “ 猫 是 一 种 动物 ”， 或 者 为 实现 目 己 当前 目标 所 需 
知道 的 非 营 具体 的 事实 ， 如 “与 销售 团队 会 议 在 141 室 于 下 午 3: 00 开 


始 ”。 


神经 网 络 擅长 存储 隐 性 知识 ， 但 是 它们 很 难 记 住 事 实 。 被 存储 在 神经 网 
络 参数 中 之 前 ， 随 机 梯度 下 降 需 要 多 次 提供 相同 的 输入 ， 即 使 如 此 ， 访 
输入 也 不 会 被 特别 精确 地 存储 。Graves et al. (2014) 推测 这 是 因为 神 
经 网 络 缺 乏 工 作 存 储 Cworking memory) 系统 ， 即 类 似 人 类 为 实现 一 
些 目标 而 明确 保存 和 操作 相关 信息 卢 段 的 系统 。 这 种 外 时 记忆 组 件 将 使 
我 们 的 系统 不 仅 能 够 快速 “故意 ?地 存储 和 检索 具体 的 事实 ， 也 能 利用 它 
们 循序 推论 。 神 经 网 络 处 理 序 列 信息 的 需要 ， 改 变 了 每 个 步骤 辐 网 络 注 
入 输入 的 方式 ， 长 期 以 来 推理 能 力 被 认为 是 重要 的 ， 而 不 是 对 输入 做 出 
目 动 的 、 直 观 的 反应 (Hinton, 1990) 。 


为 了 解决 这 一 难题 ，Weston et al. (2014) 引入 了 记忆 网 络 (memory 
network) ， 其 中 包括 一 组 可 以 通过 寻 址 机 制 来 访问 的 记忆 单元 。 记 忆 
网 络 原 本 需要 监督 信号 指示 它们 如 何 使 用 目 己 的 记忆 单元 。Graves et al. 
(2014) 引入 的 神经 网 络 网 灵机 (neural Turing machine) ， 不 需要 明 
硝 地 监督 指示 采取 哪些 行动 而 能 学 习 从 记忆 早 元 读 写 任意 内 容 ， 并 通过 
使 用 基于 内 容 的 软 注 意 机 制 ( 见 Bahdanau et al. (2015) 和 第 12.4.5.1 
节 )〉 ， 人 允许 线 到 闹 的 训练 。 这 种 软 寻 址 机 制 已 成 为 其 他 允许 基于 梯度 优 
化 的 模拟 算法 机 制 的 相关 架构 的 标准 (Sukhbaatar et al. , 2015; Joulin 
and Mikolov, 2015; Kumar et al. , 2015a; Vinyals et al. , 2015a; 
Grefenstette etal., 2015) . 


每 个 记忆 单元 可 以 被 认为 是 LSTM 和 GRU 中 记忆 单元 的 扩展 。 不 同 的 
是 ， 网 络 输出 一 个 内 部 状态 来 选择 从 哪个 单元 读 取 或 写 入 ， 正 如 数字 计 
算 机 读 取 或 写 入 到 特定 地 址 的 内 存 访问 。 


产生 确切 整数 地 址 的 函数 很 难 优化 。 为 了 绥 解 这 一 问题 ，NTM 实 际 同 
时 从 多 个 记忆 单元 与 入 或 读 取 。 读 取 时 ， 它 们 采取 许多 单元 的 加 权 平 均 
值 。 写 入 时 ， 它 们 对 多 个 里 元 修改 不 同 的 数值 。 用 于 这 些 操作 有 的 系数 被 
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存储 的 单个 标量 。 增 加 记忆 单元 大 小 的 原因 有 两 个 。 原 因 之 一 是 ， 我 们 
已 经 增加 了 访问 记忆 单元 的 成 本 。 我 们 为 产生 用 于 许多 单元 的 系数 付出 
计算 成 本 ， 但 我 们 预期 这 些 系 数 肥 集 在 周围 小 数目 的 捍 元 。 通 过 读 取 癌 
量 值 ， 而 不 是 一 个 标量 ， 我 们 可 以 抵消 部 分 成 本 。 使 用 癌 量 值 的 记忆 单 
元 的 男 一 个 原因 是 ， 它 们 允许 基于 内 容 的 寻 址 (content-based 
addressing) ， 其 中 从 一 个 单元 读 或 与 的 权重 是 该 单元 的 函数 。 如 末 我 
们 能 够 生产 符合 采 些 但 并 非 所 有 元 系 的 模式 ， 回 量 值 单 元 允许 我 们 检索 
一 个 完整 回 量 值 的 记忆 。 这 类 似 于 人 们 能 够 通过 几 个 歌词 回忆 起 一 首 歌 
曲 的 方式 。 我 们 可 以 认为 基于 内 容 的 谈 取 指令 是 说 , “检索 一 首 副 歌 歌 
词 中 市 有 :我 们 都 住 在 黄色 淤 水 租 ? 的 歌 ”。 当 我 们 要 检索 的 对 象 很 大 时 ， 
基于 和 内容 的 寻 址 更 为 有 用 如 采 歌 曲 的 每 一 个 字母 被 存储 在 单独 的 记 
忆 单 元 中 ， 我 们 将 无 法 通过 这 种 方式 找到 它们 。 通 过 比较 ， 基 于 位 置 的 
寻 址 Clocation-based addressing) 不 允许 引用 存储 上 右 的 内 容 。 我 们 可 以 
认为 基于 位 置 的 谈 取 指令 是 说 “检索 347 档 的 歌 的 歌词 ”。 即 使 当 存 储 单 
元 很 小 时 ， 基 于 位 置 的 寻 址 通常 也 是 完全 合理 的 机 制 |。 


如 果 一 个 存储 单元 的 内 容 在 大 多 数 时 间 步 上 会 被 复制 (不 被 态 记 )， 则 
它 包 人 的 信息 可 以 在 时 间 上 癌 前 传播 ， 随 时 间 辐 后 传播 的 梯度 也 不 会 消 
RERE o 
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务 神经 网 络 ”。 虽 然 这 一 任务 神经 网 络 可 以 是 前 馈 或 循环 的 ， 但 整个 系 

统 是 一 个 循环 网 络 。 任 务 网 络 可 以 选择 读 取 或 写 入 的 特定 内 存 地 址 。 外 
显 记 忆 似 乎 允许 模型 学 习 普 通 RNN 或 LSTM RNN 不 能 学 习 的 任务 。 这 种 
优点 的 一 个 原因 可 能 是 因为 信息 和 梯度 可 以 在 非常 长 的 持续 时 间 内 传播 
(分 别 在 时 间 上 辣 前 或 回 后 〉。 





记忆 单元 
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任务 网 络 ， 欣 制 记忆 





图 10.18 ”具有 外 显 记 忆 网 络 的 示意 图 ， 有 具备 神经 网 络 图 灵机 的 一 些 关 键 设 计 元 素 。 在 此 图 中 ， 
我 们 将 模型 的 “表示 ”部 分 (“任务 网 络 "， 这 里 是 底部 的 循环 网 络 ) 与 存储 事实 的 模型 (记忆 单 
元 的 集合 ) 的 “存储 器 ”部 分 区 分 开 。 任 务 网 络 学 习 “ 控 制 * 存 储 右 ， 决 定 从 哪里 读 取 以 及 在 哪里 
写 入 《通过 读 取 和 写 入 机 制 ， 由 指 同 读 取 和 写 入 地 址 的 粗 箭头 指示 ) 


作为 存储 上 时 元 的 加 权 平 均值 反问 传播 的 蔡 代 ， 我 们 可 以 将 存储 占 寻 址 
系数 解释 为 概 鞭 ， 并 随机 从 一 个 单元 旋 取 (Zaremba and Sutskever, 
2015) 。 优 化 离 获 决 案 的 模型 需要 专门 的 优化 算法 ， 这 将 在 第 20.9.1 市 
中 拉 述 。 目 前 为 止 ， 训 练 这 些 做 离散 决 案 的 随机 架构 ， 仍 比 训练 进行 软 
判决 的 确定 性 算法 更 难 。 


无 论 是 软 ( 人 允许 反问 传播 ) 或 随机 硬性 的 ， 用 于 选择 一 个 地 址 的 机 制 与 
先前 在 机 需 翻 译 的 背景 下 引入 的 注意 力 机 制 形 式 相 同 CBahdanau et al. 
，2015) ， 这 在 第 12.4.5.1 节 中 也 有 讨论 。 甚 至 更 早 之 前 ， 注 意 力 机 制 
的 想法 束 被 引入 了 神经 网 络 ， 在 手写 生成 的 情况 下 〈Graves，2013) , 
有 一 个 个 约束 为 通过 序列 只 回 前 移动 的 注意 力 机 制 。 在 机 右 翻 译 和 记忆 
网 络 的 情况 下 ， 每 个 步骤 中 关注 的 焦点 可 以 移动 到 一 个 完全 不 同 的 地 方 
(《 相 比 之 前 的 步骤 ) 。 








人 循环 神经 网 络 提 供 了 将 深度 学 习 扩 展 a 到 序列 数据 的 一 种 方法 。 它 们 是 我 
们 的 深 友 学习 工具 箱 中 最 后 一 个 主要 的 工具 。 现 在 我 们 的 讨论 将 转移 到 
如 何 选 择 和 使 用 这 些 工 具 ， 以 及 如 何在 真实 世界 的 任务 中 应 用 这 些 工 
A. 
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图 模型 是 很 少见 的 ， 但 这 是 完全 合理 的 。 








(2) 我 们 建议 不 要 将 < 递归 神经 网 络 "缩写 为 <RNN"， 以 免 与 < 循环 神经 网 络 " 混 消 。 
A 
第 11 章 ”实践 方法 论 


要 成 功 地 使 用 深度 学 习 技 术 ， 仅 仅 知 道 存 在 哪些 算法 和 解释 它们 为 何 有 
效 的 原理 是 不 够 的 。 一 个 优秀 的 机 天 学 习 实践 者 还 需要 知道 如 何 针对 其 
体 应 用 挑选 一 个 合适 的 算法 以 及 如 何 监 挖 ， 并 根据 实验 反馈 改进 机 右 学 
JRR. TEDL FI ASIN AIPA, KRA iin BR Ee BUN RE 
的 数据 、 增 加 或 减少 模型 容量 、 汪 加 或 删除 正则 化 项 、 改 进 模型 的 优 
化 、 改 进 模型 的 近似 推断 或 调试 模型 的 软件 实现 。 笑 试 这 些 操 作 部 需要 
IN TA), PREC WARE IE AEN CE, WAE A eA ee 


本 书 的 大 部 分 内 容 都 是 关于 不 同 的 机 器 学 习 模型 、 训 练 算法 和 目标 函 
数 ， 这 可 能 给 人 一 种 印象 一 一 成 为 机 器 学 习 专 家 的 最 重要 因素 是 了 解 各 
种 各 样 的 机 器 学 习 技 术 ， 并 熟悉 各 种 不 同 的 数学 。 在 实践 中 ， 正 确 使 用 
一 个 普通 算法 通 营 比 草 座 地 使 用 一 个 不 清楚 的 算法 效果 更 好 。 正 确 应 用 
一 个 算法 需要 掌握 一 些 相 当 简 单 的 方法 论 。 本 章 的 许多 建议 都 来 自 

Ng (2015) 。 
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。 确定 目标 一 一 使 用 什么 样 的 误 和 到 度量， 并 为 此 误 到 度量 指定 目标 
值 。 这 些 目 标 和 误差 度量 取决 于 该 应 用 由 在 解决 的 问题 。 

。 尽快 建立 一 个 吊 到 端的 工作 流程 ， 包 括 信 计 合适 的 性 能 度量 。 

。 挫 建 系统 ， 并 磺 定 性 能 瓶颈 。 检 查 哪 个 部 分 的 性 能 兰 于 预期 ， 以 及 
征 合 是 因为 过 拟 合 、 从 拟 合 ， 或 痢 数 据 或 软件 缺陷 造成 的 。 

。 根据 具体 观察 反复 地 进行 增 量 陈 的 改动 ， 如 收集 新 数据 、 调 整 超 参 








数 或 改进 算法 。 


我 们 将 使 用 街景 地 址 号 码 转 录 系 统 (Goodfellow et al. , 2014d) 作为 一 
个 运行 示例 。 访 应 用 的 目标 是 将 建筑 物 添加 到 谷歌 地 图 。 街 景 车 担 摄 建 
筑 物 ， 并 记录 与 每 张 建 筑 照 睛 相 关 的 GPS 举 标 。 卷 积 网 络 识别 每 张 照片 
上 的 地 址 专 码 ， 由 谷歌 地 图 数据 库 在 正确 的 位 置 壕 加 该 地 址 。 这 个 商业 
应 用 是 一 个 很 好 的 示例 ， 它 的 开发 流程 芝 循 我 们 倡导 的 设计 方法 。 


我 们 现在 描述 这 个 过 程 中 的 每 一 个 步 又 。 
11.1 性 能 度量 


硝 定 目标 ， 即 使 用 什么 误 状 度量 ， 古 必要 的 第 一 步 ， 因 为 误差 度量 将 指 
导 接 下 来 的 所 有 工作 。 同 时 我 们 也 应 该 了 解 大 概 能 得 到 什么 级 别 的 目标 
性 能 。 


值得 注意 的 是 ， 对 于 大 多 数 应 用 而 言 ， 不 可 能 实现 绝对 零 误 大 。 即 使 你 
有 无 限 的 训练 数据 ， 并 且 恢 复 了 真正 的 概率 分 布 ， 贝 叶 斯 误 着 仍 定义 了 
能 达到 的 最 小 错误 率 。 这 是 因为 输入 特征 可 能 无 法 包含 输出 变量 的 完整 
信息 ， 或 是 因为 系统 可 能 本 质 上 和 是 随机 的 。 当 然 我 们 还 会 党 限于 有 限 的 
训练 数据 。 


训练 数据 的 数量 会 因为 各 种 原因 受到 限制 。 当 目标 是 打造 现实 世界 中 最 
好 的 产品 或 服务 时 ， 我 们 通 间 需要 收集 更 多 的 数据 ， 但 必须 确定 进一步 
减少 误 大 的 价值 ， 并 与 收集 更 多 数据 的 成 本 做 权衡 。 数 据 收 集会 耗费 时 
站 、 人 金钱 ， 或 市 来 人 体 痛 盏 例如， 收集 人 体 医疗 测试 数据 》。 科 研 
中 ,目标 通 第 是 在 条 个 确定 基准 下 探讨 哪个 拭 法 更 好 ， 一 般 会 固定 训练 
集 ， 不 允许 收集 更 多 的 数据 。 


如 何 硝 定 合理 的 性 能 期 组 ? 在 学 术 界 ， 通 年 我 们 可 以 根据 先前 公布 的 基 
准 结果 来 估计 预期 错误 紊 。 在 现实 世界 中 ， 一 个 应 用 的 错误 率 有 必要 是 
安全 的 、 上 其 有 成 本 效 蔓 的 或 吸引 消费 者 的 。 一 旦 你 确定 了 想 要 达到 的 错 
误 率 ， 那 么 你 的 设计 将 由 如 何 达到 这 个 错误 率 来 指 叶 。 


除了 需要 考虑 性 能 度量 之 外 ， 为 一 个 需要 郊 虑 的 是 度量 的 选择 。 我 们 有 
儿 种 不 同 的 性 能 度量 ， 可 以 用 来 度量 一 个 含有 机 如 学 习 组 件 的 完整 应 用 


WARE. REE AE RE FE m NT PV A ew O51. 2 
所 述 ， 我 们 通常 会 度量 一 个 系统 的 准确 率 ， 或 等 价 地 ， 错 误 率 。 


然而 ， 许 多 应 用 需要 更 高 级 的 度量 。 


有 时 ， 一 种 错误 可 能 会 比 万 一 种 错误 更 严重 。 例 如 ， 世 圾 邮件 检测 系统 
aA PAM aR: CIE a ADP te VA AE BE, HI AP e ya 
HIER BBF. BHIEIE A YH A EL IC VF AY EYE RS & © RITE BBE 
BOR UN EDT, HP ERRE i IPE EE 90 A a I PE IE A E 
mo TA AN ee SE Be i RA PS GTR 
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会 为 一 种 罕见 疾病 设计 医疗 测试 。 假 设 每 一 百 万 人 中 只 有 一 人 患 病 。 我 
们 只 需要 让 分 类 器 一 直 报 告 没 有 患者， 就 能 轻易 地 在 检测 任务 上 实现 
99.9999% 的 正确 宗 。 显 然 ， 正 人 确 率 很 难 摘 述 这 种 系统 的 性 能 。 解 决 这 
个 问题 的 方法 是 上 度量 精度 (precision) 和 召回 率 (recall) 。 精 度 是 模 
型 报告 的 检测 正确 的 比 深 ， 而 召回 识 则 是 真实 事件 被 检测 到 的 比率 。 检 
测 必 永远 报告 没有 患者 ， 会 得 到 一 个 完美 的 精度 ， 但 召回 率 为 零 。 而 报 
告 每 个 人 都 是 患者 的 检测 需 会 得 到 一 个 完美 的 名 回 蒜 ， 但 是 精度 会 等 于 
人 和 群 中 患 有 该 病 的 比例 (在 我 们 的 例子 中 是 0.0001%， 即 每 一 百 万 人 只 
有 一 人 患 病 ) 。 当 使 用 精度 和 如 回 率 时 ， 我 们 通 利 会 画 PR 曲 线 (PR 
curve) ，Yy 轴 表示 精度 ，X 轴 表示 各 回 率 。 如 果 检 测 到 的 事件 有 发生 了 ， 
那么 分 类 需 会 返回 一 个 较 高 的 得 分 。 例 如 ， 我 们 将 前 馈 网 络 设计 为 检测 
一 种 疾病 ， 估 计 一 个 医疗 结果 由 特征 X 表示 的 人 患 病 的 概 识 为 
y = P(y = 二 1 | x) 。 每 当 这 个 得 分 超过 某 个 阐 值 时 ， 我 们 报告 检测 
结果 。 通 过 调整 国 值 ， 我 们 能 权衡 精度 和 如 回 率 。 在 很 多 情况 下 ， 我 们 
布 望 用 一 个 数 而 不 是 曲线 来 概括 分 类 需 的 性 能 。 要 做 到 这 一 点 ， 我 们 可 
以 将 精度 p 和 召回 率 r 转 换 为 分 数 〈F-score ) 


2pr 
are 


男 一 种 方法 是 报告 PR 曲线 下 方 的 总 面积 。 


在 一 些 应 用 中 ， 机 可 学 习 系 统 可 能 会 拒绝 作出 判断 。 如 果 机 带 学 习 算 法 
能 够 佑 计 所 作 判 断 的 置信 度 ， 这 将 会 非 钊 有用， 特别 是 在 错误 判断 会 寻 





(11.1) 
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作为 这 种 情况 的 一 个 示例 。 这 个 任务 是 识别 照片 上 的 地 址 号 码 ， 将 照片 
拍摄 地 点 对 应 到 地 图 上 的 地 址 。 如 果 地 图 是 不 精确 的 ， 那 么 地 图 的 价值 
会 严重 下 降 。 因 此 只 在 转 有 孙 正 确 的 情况 下 述 加 地 址 才 十 分 重要 。 如 果 机 
全 学 习 系 统 认 为 它 不 太 能 像 人 一 样 正确 地 转 孙 ， 那 么 最 好 的 办 法 当然 是 
LEAR eH. SPR, AA SDSS ASHE eK ER a eA LR 
FARERI, EA ARAN. TERT R FE AR ERE E 
jes iz (coverage) 。 复 访 是 机 右 学 习 系 统 能 够 产生 啊 应 的 样本 所 占有 的 
比率 。 我 们 权 衔 颖 兰 和 精度 。 一 个 系统 可 以 通过 拒绝 处 理 任 意 样 本 的 方 
式 来 达到 100% 的 精度 ， 但 是 黎 兰 降 到 了 0% 。 对 于 街景 任务 ， 访 项 目的 
目标 是 达到 人 类 级 别 的 转录 精度 ， 同 时 保 擂 95% 的 绑 兰 。 在 这 项 任务 
中 ， 人 类 级 别 的 性 能 是 98% 的 精度 。 


还 有 许多 其 他 的 性 能 度量 。 例 如 ， 我 们 可 以 度量 点 击 率 、 收 集 用 户 满意 
度 调查 等 。 许 多 专业 的 应 用 领域 也 有 特定 的 标准 。 


最 重要 的 是 首先 要 确定 改进 哪个 性 能 度量 ， 然 后 专心 提高 性 能 度量 。 如 
朱 没 有 明确 的 目标 ， 那 么 我 们 很 难 判断 机 稚 学 习 系 统 上 的 改动 是 个 有 上 所 
改进 。 


11.2 ”默认 的 基准 模型 


确定 性 能 度量 和 目标 后 ， 任 何 实际 应 用 的 下 一 步 是 尽快 建立 一 个 合理 的 
痛 到 器 的 系统 。 在 本 节 中 ， 我 们 握 供 了 关于 不 同情 况 下 使 用 哪 种 复议 作 
为 第 一 基准 方法 的 推荐 。 值 得 注意 的 是 ， 深 友 学 习 研 究 进 展 迅速 ， 所 以 
本 书 出 版 后 很 快 可 能 会 有 更 好 的 默认 算法 。 

根据 问题 的 复 森 性， 项 目 开 始 时 可 能 无 须 使 用 深度 学 习 。 如 果 只 需 正 确 
地 选择 几 个 线性 权重 融 可 能 解决 问题 ， 那 么 项 目 可 以 开始 于 一 个 简单 的 
统计 模型 ， 如 网 辑 回 归 。 


如 来 问题 属于 “AI- 完 全 ”类 的 ， 如 对 象 识 别 、 语 首 识别 、 机 妖 翻 详 等 ， 
那么 项 目 开始 于 一 个 合适 的 深度 学 习 企 型 ， 效 来 会 比较 好 。 


自 完 ， 根 据 数 据 的 结构 选择 一 类 合适 的 模型 。 如 果 项 目 是 以 固定 大 小 的 
问 量 作为 输入 的 监督 学 习 ， 那 么 可 以 使 用 全 连接 的 前 饥 网 络 。 如 打 和 输入 


己 知 的 拓扑 结构 《〈 例 如， 输入 的 是 图 像 ) ， 那 么 可 以 使 用 疮 积 网络 。 在 
这 些 情况 下 ， 刚 开始 可 以 使 用 某 些 分 段 线性 单元 (ReLU 或 者 其 扩展 ， 
如 Leaky ReLU、PReLU 和 maxout) 。 如 果 输 入 或 输出 是 一 个 序列 ， 可 以 
使 用 门 探 循环 网 络 (LSTM 或 GRU) 。 


具有 有 惨 减 学 习 率 以 及 动量 的 SGD 是 优化 算法 一 个 合理 的 选择 流行 的 有 娶 
RIRA, FRIE RE tee TRH HI SS EN APE EN. AER BBR ACE 
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而 言 。 虽 然 在 最 初 的 基准 中 忽略 批 标准 化 是 合理 的 ， 然 而 当 优化 似乎 出 
现 问 题 时 ， 应 该 立刻 使 用 批 标准 化 。 


除非 训练 集 包 含 数 干 万 以 及 更 多 的 样本 ， 盏 则 项 目 应 该 在 一 开始 就 包 合 
一 些 温和 的 正则 化 。 提 前 终止 也 被 普遍 采用 。Dropout 也 是 一 个 很 容易 
实现 ， 且 兼容 很 多 模型 和 训练 算法 的 出 色 正 则 化 项 。 批 标准 化 有 时 也 能 
降低 泛 化 误差 ， 此 时 可 以 省 略 Dropout 步 又， 因为 用 于 标准 化 变量 的 统 
计量 估计 本 身 就 存在 噪声 ， 


如 果 我 们 的 任务 和 为 一 个 被 广泛 研究 的 任务 相似 ， 那 么 通过 复制 先前 研 
完 中 己 知 性 能 民 好 的 模型 和 算法 ， 可 能 会 得 到 很 好 的 效果 ， 甚 至 可 以 从 
该 任务 中 复制 一 个 训练 好 的 人 模型。 例如， 通常 会 使 用 在 ImageNet 上 训练 
好 的 卷 积 网 络 的 特征 来 解决 其 他 计算 机 视觉 任务 《〈Girshick et al. , 
2015) 。 


一 个 第 见 问题 是 项 目 开 始 时 是 人 否 使 用 无 监督 学 习 ， 我 们 将 在 第 三 部 分 进 
一 步 探讨 这 个 问题 。 这 个 问题 和 特定 领域 有 关 。 在 东 些 领域 ， 比 如 目 然 
语言 处 理 ， 能 够 大 大 受众 于 无 监督 学 习 技 术 ， 如 学 习 无 监督 词 艇 入 。 在 
其 他 领域 ， 如 计算 机 视觉 ， 除 非 古 在 半 监 督 的 设 定 下 (标注 样本 数量 很 
少 ) (Kingma et al. , 2014; Rasmus et al. , 2015) ， 目 前 无 监督 学 习 
并 没有 带 来 益处 。 如 末 应 用 所 在 环境 中 ， 无 监督 学 习 航 认为 是 很 重要 
的 ， 那 么 将 其 包 售 在 第 一 个 问 到 端的 基准 中 。 人 否则 ， 只 有 在 解决 无 监 千 
问题 时 ， 才 会 第 一 次 答 试 时 使 用 无 监督 和 学习。 在 发 现 初 始 基准 过 拟 合 的 
时 候 ， 我 们 可 以 符 弃 加 入 无 监督 学 习 。 


11.3 ”决定 征 合 收集 更 多 数据 
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而 ， 收 集 更 多 的 数据 往往 比 改 进 学 习 算 法 要 有 用 得 多 。 


怎样 判断 是 个 要 收集 更 多 的 数据 ? 首先 ， 确 定 训 练 集 上 的 性 能 是 合 可 接 
受 。 如 果 模 型 在 训练 集 上 的 性 能 束 很 又 ， 和 学 习 算法 部 不 能 在 训练 集 上 学 
习 出 民 好 的 柑 型 ， 那 么 就 没 必 要 收集 更 多 的 数据 。 反 之 ， 可 以 竹 试 增加 
更 多 的 网 络 层 或 每 层 增 加 更 多 的 隐 闫 单元 ， 以 增加 桂 型 的 规模 。 此 外 ， 
也 可 以 笑 试 调整 学 习 率 等 超 参 数 的 措施 来 改进 学 习 算 法 。 如 来 更 大 的 棕 
型 和 仔细 调试 的 优化 拭 法 效果 不 佳 ， 那 么 问题 可 能 源 日 训练 数据 的 质 

量 。 数 据 可 能 含 太 多 噪声 ， 或 是 可 能 不 包含 预 训 输 出 所 需 的 正确 输入 。 
ee 
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主要 因 系 之 一 。 在 其 他 情况 下 ， 如 医疗 应 用 ， 收 集 更 多 的 数据 可 能 代价 
很 融 或 者 不 可 行 。 一 个 可 以 蔡 代 的 简单 方法 是 降低 模型 大 小 或 是 改进 正 
则 化 “调整 超 参 数 ， 如 权重 桶 减 系数 ， 或 是 加 入 正则 化 策略 ， 如 
Dropout) 。 如 条 调整 正则 化 超 参数 后 ， 训 练 集 性 能 和 测试 集 性 能 之 辣 
的 兰 距 还 下 不 可 接受 ， 那 么 收集 更 多 的 数据 是 可 取 的 。 


在 次 定 是 个 收集 更 多 的 数据 时 ， 也 需要 确定 收集 多 少数 据 。 如 图 5.4 上 所 

未 ， 绘 制 曲线 显示 训练 集 规模 和 泛 化 误 基 之 间 的 天 系 古 很 有 帮助 的 。 根 

扼 走 势 延伸 曲线 ， 可 以 预测 还 需要 多 少 训练 数据 来 达到 一 定 的 性 能 。 通 

第 ， 加 入 总 数目 一 小 部 分 的 样本 不 会 对 沁 化 误差 产生 显 考 的 影响 。 因 

ri 
FY 
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学 习 算法 本 身 。 这 属于 研究 领域 ， 并 非 对 应 用 实践 者 的 建议 。 
11.4 ”选择 超 参 数 


大 部 分 深度 学 习 算 法 部 有 许多 超 参 数 来 控制 不 同方 面 的 算法 表现 。 有 些 
超 参 数 会 影响 拭 法 运行 的 时 间 和 存储 成 本 ， 有 些 超 参数 会 影响 学 习 到 有 的 
模型 质量 以 及 在 新 输入 上 推 著 正 确 结束 的 能 


有 两 种 选择 超 参 数 的 基本 方法 : 手动 选择 和 上 自动 选择 。 手 动 选择 超 参 数 
rie J ARR BU SHEA, DW Rei Lae SH) BAL ON A eS BE EN YZ 
化 。 目 动 选择 超 参 数 复 法 大 大 减少 了 了 解 这 些 想 法 的 需要 ， 但 它们 往往 
需要 更 局 的 计算 成 本 。 


11.4.1 手动 调整 超 参 数 


FIKRDA, RAVI TESA UARRA ZURAM A 
源 内存 和 运行 时 间 ) 之 间 的 天 系 。 这 和 需要 切实 了 解 一 个 学 习 算 法 有 效 
ee AS, WER SB ATI AY o 
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PIR RESE H ty re HEREA ANA E VA LE HY ER 
性 。 有 有 效 容量 受 限于 3 个 因 系 : 模型 的 表示 容量 、 学 习 算 法 成 功 最 小 化 
训练 恒 型 代价 函数 的 能 力 ， 以 及 代价 函数 和 训练 过 程 正 则 化 模 琢 的 程 
度 。 有 共有 更 多 网 络 层 、 每 层 有 更 多 隐 闫 单元 的 模型 具有 较 高 的 表示 能 力 
能 够 表示 更 复 录 的 函数 。 然 而 ， 如 条 训练 算法 不 能 找到 未 个 合适 的 
图 数 来 最 小 化 训练 代价 ， 或 是 正则 化 项 《如 权重 爱 减 ) 排除 了 这 些 合适 
的 函数 ， 那 么 即使 模型 的 表达 能 力 较 局 ， 也 不 能 学 习 出 合适 的 函数 。 


NZ MIRA WR TBR A EE, TEAR BAe il ORIN, WW LA 
U 形 曲线 ， 如 图 5.3 所 示 。 在 菏 个 极 站 情况 下 ， 超 参数 对 应 着 低 容 量 ， 并 
且 泛 化 误 兰 由 于 训练 误 莽 较 大 而 很 局 。 这 便 是 到 拟 合 的 情况 。 态 一 种 极 
病情 况 ， 超 参数 对 应 看 高 容量 ， 并 且 沁 化 误 着 由 于 训练 误 着 和 训 试 误差 
之 间 的 差距 较 大 而 很 高 。 节 优 的 模型 容量 位 于 曲线 中 间 的 未 个 位 置 ， 能 
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对 于 未 些 超 参数 ， 当 超 参 数 数 值 太 大 时 ， 会 及 生 过 拟 合 。 例 如 中 间 层 隐 
闫 单元 的 数量 ， 增 加 数量 能 提高 醒 型 的 容量 ， 容 易 及 生 过 拟 合 。 对 于 未 
些 超 参数 ， 当 超 参 数 数值 太 小 时 ， 也 会 友 生 过 拟 合 。 例 如 ， 最 小 的 权重 
EMRAN, MAISARA RARA, hE aM 
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并 非 每 个 超 参数 都 能 对 应 着 完整 的 U 形 曲线 。 很 多 超 参 数 是 离散 的 ， 如 
中 间 层 单元 数目 或 是 maxout 单 元 中 线性 元 件 的 数目 ， 这 种 情况 只 能 治 曲 
线 探 索 一 些 点 。 有 些 超 参数 旦 二 但 的 。 通 币 这 些 超 参 数 用 来 指定 是 合 使 
用 学 习 算 法 中 的 一 些 可 选 部 分 ， 如 预 处 理 步 又 减 去 均值 并 除 以 标准 产 来 
标准 化 输入 特征 。 这 些 超 参数 只 能 探索 曲线 上 的 两 点 。 其 他 一 些 超 参 数 
可 能 会 有 节 小 值 或 最 大 值 ， 限 制 其 探索 曲线 的 未 些 部 分 。 例 如 ， 权 重 爱 
减 系数 最 小 是 零 。 这 和 意味 痢 ， 如 果 权 重 桶 减 系数 为 零 时 模型 从 拟 合 ， 那 
么 我 们 将 无 法 通过 修改 权重 桶 减 系数 探索 过 拟 合 区 域 。 换 言 乙 ， 有 些 超 
参数 只 能 减少 模型 容量 。 


学 习 率 可 能 是 最 重要 的 超 参数 。 如 果 你 只 有 时 间 调 整 一 个 超 参数 ， 那 吏 
调整 学 习 率 。 相 比 其 他 超 参数 ， 它 以 一 种 更 复杂 的 方式 控制 模型 的 有 效 
容量 一 当 学 习 率 适合 优化 问题 时 ， 模 型 的 有 效 容 量 最 高 ， 此 时 学 习 率 
是 正确 的 ， 既 不 是 特别 大 也 不 是 特别 小 。 学 习 率 关于 训练 误 莽 具有 U 形 
曲线 ， 如 图 11.1 所 示 。 当 学 习 率 过 大 时 ， 梯 度 下 降 可 能 会 不 经 意 地 增加 
而 非 减 少 训练 误 兰 。 在 理想 化 的 二 次 情况 下 ， 如 果 学 习 率 是 最 佳 值 的 两 
倍 大 时 ， 则 会 发 生 这 种 情况 (LeCun et al. , 1998b) 。 当 学 习 率 太 小 ， 
训练 不 仅 慢 ， 还 有 可 能 永久 停留 在 一 个 很 高 的 训练 误 关 上。 关于 这 种 效 
应 ， 我 们 知之 甚 少 〈 不 会 发 生 于 一 个 凸 损失 函数 中 ) 。 
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训练 误差 
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图 11.1 训练 误 莽 和 学 习 率 之 间 的 典型 关系。 注意 ， 当 学 习 率 大 于 最 优 值 时 ， 误 差 会 有 显著 的 
提升 。 此 图 针对 固定 的 训练 时 间 ， 越 小 的 学 习 率 有 时 候 可 以 以 一 个 正比 于 学 习 座 减 小 量 的 因素 
来 减 慢 训练 过 程 。 泛 化 误差 也 会 得 到 类 似 的 曲线 ， 由 于 正则 项 作用 在 学 习 率 过 大 或 过 小 处 比较 
复杂 。 一 个 糖 糙 的 优化 从 茶 种 程度 上 说 可 以 避免 过 拟 合 ， 即 使 是 训练 误 兰 相同 的 点 也 会 拥有 完 
EA ZIRE 
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如 来 训练 集 错误 率 大 于 目标 错误 率 ， 那 么 只 能 增加 模型 容量 以 改进 栋 
型 。 如 果 没 有 使 用 正则 化 ， 并 且 确 信 优 化 算法 正确 运行 ， 那 么 有 必要 湛 
加 更 多 的 网 络 层 或 隐 闫 里 元 。 然 而 ， 令 人 壮 憾 的 十， 这 增加 了 模型 的 计 
算 代价 。 


如 末 训 弃 集 钳 误 率 大 于 目标 错误 率 ， 那 么 可 以 采取 两 个 方法 。 测 试 误 关 
是 训练 误 关 和 测试 误 甜 之 间 差 距 与 训练 误 兰 的 总 和 。 寻 找 最 佳 的 测试 误 
下 裔 要 权衡 这 些 数值 。 当 训练 误 达 较 小 (因此 容量 较 大 ) > MARAE 
要 取决 于 训练 误 碟 和 测试 误 弄 之 间 的 到 距 时 ， 通 第 神经 网 络 





效果 最 好 。 此 时 目标 是 缩小 这 一 差距 ， 使 训练 误差 的 增长 速率 不 快 于 差 
距 减 小 的 速率 。 要 减少 这 个 差距 ， 我 们 可 以 改变 正则 化 超 参 数 ， 以 减少 
有 效 的 模型 容量 ， 如 添加 Droponut 或 权重 衰减 策略 。 通 常 ， 最 佳 性 能 来 
自 正则 化 得 很 好 的 大 规模 模型 ， 比 如 使 用 Dropout 的 神经 网 络 。 


大 部 分 超 参 数 可 以 通过 推理 其 是 否 增 加 或 减少 模型 容量 来 设置 。 部 分 示 
例如 表 11.1 所 示 。 





表 11.1 各 种 超 参 数 对 模型 容量 的 影响 


超 参 数 容 星 何 时 增 原 注意 事项 


加 
隐 疾 单元 数 增加 增加 隐 基 单元 数量 “几乎 模型 每 个 操作 
= 会 增加 模型 的 表示 能 所 需 的 时 间 和 内 存 代 
JJ TARE BE Be at #70 BY 
量 的 增加 而 增加 
PPO] Ji E 不 正确 的 和 学习 速 
K, NE AIRE 
太 低 都 会 由 于 优化 失 
败 而 导致 低 有 效 容量 
的 模型 
益 积 核 宽度 ”增加 增加 疮 积 核 蜗 上 度 会 ” 较 宽 的 耸 积 核 导 致 
增加 模型 的 参数 数 ” 较 军 的 输出 尺寸 ， 除 
量 JEH Bac 2558 Fe yak 
be eZ ln], AP Ml] Se ek 
低 模 型 容量 。 较 宽 的 
益 积 核 需 要 更 多 的 内 
存 存 储 参 数 ， 并 会 增 
加 运行 时 间 ， 但 较 罕 
的 输出 会 降低 内 存 代 
价 
EARE H FESR Z ATS ”大 多 数 操作 的 时 间 
WAS RE TREE RLAR SY 和 内 存 代 价 会 增加 
的 表示 
DM HE Nak ZR 降低 BEAM BE HE dik Aa BY 
数 使 得 模型 参数 可 以 目 
由 地 变 大 
Dropout 比 ”降低 较 少 地 丢 径 单元 可 
A 以 更 多 地 让 单元 彼 
BeOS 71° Ri MA 


FWHM, DESIR At: 拓 升 测试 集 性 能 。 加 入 正则 化 
只 十 实现 这 个 目标 的 一 种 方法 。 只 要 训练 误 天 低 ， 随 时 痢 可 以 通过 收集 


ES VIR RVD YZ ORE KRP RES RS AARIA 
Bi ze AN Wr pe i te Ae MRSA, EPUB TE IM 
SVN AHERN ERN MARAEA AE Oe ER ee AT Ho JiR 
WE, KEGAN BES AOC MES Se te AI, (EE |) pe Tf 
Da RP 当然 ， 前 所 十 选择 了 合适 的 
喘 型 。 


11.4.2 ” 目 动 超 参数 优化 算法 


理想 的 学 习 算 法 应 该 是 只 需要 和 输入 一 个 数据 集 ， 融 可 以 输出 学 习 的 函 

数 ， 而 不 需要 手动 调整 超 参 数 。 一 些 流行 的 学 习 算法 ， 如 逻辑 回归 和 文 
持 问 量 机 ， 流 行 的 部 分 原因 征 这 闫 算法 只 有 一 到 两 个 超 参数 需要 调整 ， 
它们 也 能 表现 出 不 错 的 性 能 。 有 些 情况 下 ， 所 十 调 整 的 超 参 数 数量 较 少 
时 ， 神 经 网 络 可 以 表现 出 不 错 的 性 能 ， 但 超 参 数 数量 有 几 十 甚 全 更 多 

时 ， 效 条 会 握 升 得 更 加 明显 。 当 使 用 者 有 一 个 很 好 的 初始 值 ， 例 如 由 在 
相同 医 型 的 应 用 和 架构 上 共有 经 验 的 人 确定 初始 值 ， 或 者 使 用 者 在 相似 
问题 上 上 其 有 几 个 月 甚至 几 年 的 神经 网 络 超 参数 调整 经 验 ， 那 么 手动 调整 
超 参 数 能 有 很 好 的 效 床 。 然 而 ， 对 于 很 多 应 用 而 言 ， 这 些 起 点 都 不 可 

用 。 在 这 些 情况 下 ， 目 动 算 法 可 以 找到 合适 的 超 参数 。 


如 末 仔 细 想 想 使 用 者 搜索 学 习 算 法 合适 超 参 数 的 方式 ， 我 们 会 意识 到 这 
其 实 是 一 种 优化 : 我们 在 试图 寻找 超 参 数 来 优化 目标 函数 ， 例 如 验证 误 
甜 ， 有 时 还 会 有 一 些 约束 《如 训练 时 间 、 内 存 或 识别 时 间 的 预算 ) 。 
上 此， 原则 上 有 可 能 开发 出 封 猴 学习 算法 的 超 参 数 优 化 ”hyperparameter 
optimization) 算法 ， 并 选择 其 超 参数 ， 从 而 使 用 者 不 需要 指定 学 习 算 法 
的 超 参 数 。 令 人 址 憾 的 是 ， 超 参数 优化 算法 往往 有 目 己 的 超 参数 ， 如 学 
习 算 法 的 每 个 超 参 数 应 该 被 探索 的 值 的 了 范围。 然而， 这 些 次 级 超 参数 通 
钊 很 容易 选择 ， 这 融和 是 说 ， 相 同 的 识 级 超 参 数 能 够 在 很 多 不 同 的 问题 上 
共有 民 好 的 性 能 。 


11.4.3 PRK FEA 


当 有 3 个 或 更 少 的 超 参数 时 ， 第 见 的 超 参 数 搜索 方法 是 网 格 搜索 C grid 
search) 。 对 于 每 个 超 参 数 ， 使 用 者 选择 一 个 较 小 的 有 限 值 集 去 探索 。 
然后 ， 这 些 超 参数 涟 卡 儿 乘积 得 到 一 组 组 超 参 数 ， 网 格 搜索 使 用 每 组 超 
参数 训练 模型 。 挑 选 验证 集 误 差 最 小 的 超 参数 作为 最 好 的 超 参 数 。 图 


11.2 所 示 是 超 参 数值 的 网 络 。 





网 格 随机 


图 11.2 ”网 格 搜索 和 随机 搜索 的 比较 。 为 了 便于 说 明 ， 我 们 只 展示 两 个 超 参 数 的 例子 ， 但 是 我 
们 关注 的 问题 中 超 参 数 个 数 通常 会 更 多 。 CL) 为 了 实现 网 格 搜索 ， 我 们 为 每 个 超 参 数 提供 了 
一 个 值 的 集合 。 搜 索 算 法 对 每 一 种 在 这 些 集合 的 交叉 积 中 的 超 参 数组 合 进行 训练 。 〈 右 ) 为 了 
实现 随机 搜索 ， 我 们 给 联合 超 参数 赋予 了 一 个 概率 分 布 。 通 第 超 参 数 之 间 是 相互 独立 的 。 篆 见 
的 这 种 分 布 的 选择 是 均匀 分 布 或 者 是 对 数 均 勾 〈 从 对 数 均 匀 分 布 中 抽样 ， 束 是 对 从 均匀 分 布 中 
抽取 的 样本 进行 指数 运算 ) 的 。 然 后 这 些 搜 索 算 法 从 联合 的 超 参数 空间 中 采样 ， 然 后 运行 每 一 
个 样本 。 网 格 搜索 和 随机 搜索 都 运行 了 验证 集 上 的 误差 并 返回 了 最 优 的 解 。 这 个 图 说 明了 通 营 
只 有 一 个 超 参 数 对 结果 有 看 重要 的 影响 。 在 这 个 例子 中 ， 只 有 水 平 轴 上 的 超 参数 对 结果 有 重要 
的 作用 。 网 格 搜 索 将 大 量 的 计算 浪费 在 指数 量 级 的 对 结果 无 影响 的 超 参 数 中 ， 相 比 之 下 随机 搜 
索 几 乎 每 次 测试 都 测试 了 对 结果 有 影响 的 每 个 超 参数 的 独一无二 的 值 。 此 图 经 Bergstra and 
Bengio (2011) 人 允许 转载 


应 访 如 何 选择 搜索 集合 的 苑 围 呢 ? 在 超 参 数 是 数值 〈 有 序 ) 的 情况 下 ， 

每 个 列表 的 最 小 和 最 大 的 元 系 可 以 基于 先前 相似 实验 的 经 验 保守 地 挑选 
HOR, CR DRE TORRE Be AY BEE ATE AY. WAY, PRR RA STE 
对 数 尺 度 Clgarithmic scale) 下 挑选 合适 的 值 ， 例 如 ， 一 个 学 习 率 的 取 
值 集 合 是 {0.1，0.01，103 ，104 ，105}， 或 者 隐藏 单元 数目 的 取 值 集 
#{50, 100, 200, 500, 1000, 2000}. 
































通 钊 重复 进行 网 格 搜索 时 ， 效 果 会 最 好 。 例 如 ， 假 设 我 们 在 集合 {-1， 
0，1}+ 上 网 格 搜索 超 参 数 w。 如 果 找 到 的 最 佳 值 是 1， 那 么 说 明 我 们 低估 
了 最 优 值 ac 所 在 的 范围 ， 应 该 改变 搜索 格 点 ， 例 如 在 集合 {L1，2，3} 中 搜 
索 。 如 果 最 佳 值 是 0(， 那 么 我 们 不 妨 通 过 细 化 搜索 范围 以 改进 估计 ， 在 
集合 {-0.1，0，0.1} 上 进行 网 格 搜索 。 


网 格 搜索 带 来 的 一 个 明显 问题 是 ， 计 算 代 价 会 随 着 超 参 数 数量 呈 指 数 级 


增长 。 如 条 有 m 个 超 参 数 ， 每 个 最 多 取 n 个 值 ， 那 么 训练 和 佑 计 所 需 的 
试验 数 将 是 Om )。 我 们 可 以 并 行 地 进行 实验 ， 并 且 并 行 要 求 十 分 宽松 
4 进行 不 同 搜索 的 机 邢 之 间 几 乎 没有 必要 进行 通信 ) 。 令 人 遗憾 的 是 ， 
由 于 网 格 搜索 指数 级 增长 计算 代价 ， 即 使 是 并 行 ， 我 们 也 无 法 提供 令 人 
满意 的 搜索 规模 。 


11.4.4 ”随机 搜索 


对 运 的 是 ， 有 一 个 奉 代 网 格 搜索 的 方法 ， 并 且 编 程 简 单 ， 使 用 更 方便 ， 
能 更 快 地 收敛 到 超 参 数 的 展 好 取信 一 一 随机 搜索 (Bergstra and 
Bengio, 2012) . 


随机 搜索 过 程 如 下 。 首 先 ， 我 们 为 每 个 超 参数 定义 一 个 边 绿 分布 ， 例 
如 ，Bermnoulli 分 布 或 范畴 分 布 〈 分 别 对 应 看 二 元 超 参 数 或 离散 超 参 
数 ) ， 或 者 对 数 尺 上 度 上 的 均 勾 分 布 〈 对 应 着 正 实 值 超 参数 ) 。 例 如 ， 


log learning rate ~ u(—1,—5), (11.2) 


learning rate = 10°88 (11.3) 


其 中 ，u(ab) 表 示 区 间 (ab) 上 均匀 采样 的 样本 。 类 似 
$i, log_number_of_hidden_units 可 以 从 udog(50),log(2000)) 上 采样 。 


与 网 格 搜索 不 同 ， 我 们 不 需要 离散 化 超 参数 的 值 。 这 人 允许 我 们 在 一 个 更 
大 的 集合 上 进行 搜索 ， 而 不 产生 额外 的 计算 代价 。 实 际 上 ， 如 图 11.2 上 所 
示 ， 当 有 儿 个 超 参 数 对 性 能 度量 没有 时 著 影响 时 ， 随 机 搜索 相 比 于 网 格 
搜索 指数 级 地 高 效 。Bergstra and Bengio (2012) 进行 了 详细 的 研究 并 
发 现 相 比 于 网 格 搜 索 ， 随 机 搜索 能 够 更 快 地 减 小 验证 集 误差 〈 束 每 个 标 
型 运行 的 试验 数 而 言 )。 


与 网 格 搜索 一 样 ， 我 们 通常 会 香 复 运行 不同 版 本 的 随机 搜索 ， 以 基于 前 
TRIB AT HY 28 AR BE BRL -o 


BENLI x He EL IIE I x E RER Pl RP Ale, KAIR GI 
验 ， 不 像 网 格 搜索 有 时 会 对 一 个 超 参 数 的 两 个 不 同 值 〈 给 定 其 他 超 参 数 
值 不 变 ) 给 出 相同 结 来 。 在 网 格 搜索 中 ， 其 他 超 参 数 将 在 这 两 侈 实验 中 
拥有 相同 的 值 ， 而 在 随机 搜索 中 ， 它 们 通常 会 共有 不 同 的 值 。 因 此 ， 如 


KX PY MEL IS HCA Dy SY Soe IE BS oe Fe TA H Se DM PD Tn DD ER AR 
有 必要 重复 两 个 等 价 的 实验 ， 而 随机 搜索 仍然 会 对 其 他 超 参 数 进 行 两 次 
独立 的 探索 。 


11.45 ”基于 模型 的 超 参 数 优 化 


超 参 数 搜索 问题 可 以 转化 为 一 个 优化 问题 ， 决 策 变 量 是 超 参 数 ， 优 化 的 
代价 是 超 参数 训练 出 来 的 模型 在 验证 集 上 的 误 甜 。 在 简化 的 设 定 下 ， 可 
DAT ee UES EH SR RAA TBS INE, FA BTS Ph 
度 更 新 (Bengio et al. , 1999; Bengio, 2000; Maclaurin et al. , 
2015) 。 令 人 遗憾 的 是 ， 在 大 多 数 实际 设 定 中 ， 这 个 梯度 是 不 可 用 的 。 
这 可 能 是 因为 其 高 额 的 计算 代价 和 存储 成 本 ， 也 可 能 是 因为 验证 集 误 郑 
在 超 参数 上 本 质 上 不 可 导 ， 例 如 超 参 数 是 离散 值 的 情况 。 


为 了 弥补 樟 度 的 缺失 ， 我 们 可 以 对 验证 集 误 和 关 建 模 ， 然 后 通过 优化 访 模 
型 来 捉 出 新 的 超 参 数 猜想 。 大 部 分 基于 模型 的 超 参数 搜索 算法 ， 都 是 使 
用 贝 叶 斯 回归 模型 来 估计 每 个 超 参 数 的 验证 集 误 乔 期 望 和 充 期 望 的 不 确 
ETE. AK, TM RRA GRA REA NEES, Al Re A 
的 效果 提升 ， 也 可 能 效果 很 过) AEA UEH CANE OCR a NSE 
数 一 一 通常 是 先 甫 见 过 的 非 和 常熟 甘 的 超 参 数 ) 之 则 的 权衡 。 天 于 超 参 数 
优化 的 最 前 沿 方法 还 包括 Spearmint (Snoek et al 2012) 4 
TPE (Bergstra etal., 2011) #ISMAC (Hutter etal. , 2011) 。 


目前 ， 我 们 无 法 明确 确定 ， 贝 叶 期 超 参数 优化 是 含 是 一 个 能 够 实现 更 好 
深度 学 习 结 于 或 是 能 够 事 半 功 僧 的 成 熟 工具 。 贝 叶 斯 超 参 数 优化 有 时 表 
现 得 像 人 次 专家 ， 能 够 在 有 些 问 题 上 取得 很 好 的 效 来 ， 但 有 时 义 会 在 东 
些 问 题 上 友 生 灾难 性 的 失误 。 看 看 它 是 任 适 用 于 一 个 特定 的 问题 是 值得 
笑 试 的 ， 但 目前 该 方法 还 不 够 成 熟 或 可 徘 。 束 像 所 说 的 那样 ， 超 参数 优 
化 是 一 个 乍 要 的 研究 领域 ， 通 沼 主 要 受 深 度 和 学习 所 和 需 驱 动 ， 但 是 它 不 仪 
能 页 献 于 整个 机 大 学 习 领 域 ， 还 能 页 献 于 一 般 的 工程 学 。 


大 部 分 超 参 数 优化 算法 比 随机 搜索 更 复杂 ， 并 且 上 共有 一 个 共同 的 缺点 ， 
在 它们 能 够 从 实验 中 提取 任何 信息 之 前 ， 它 们 需要 运行 完整 的 训练 实 
验 。 相 比 于 人 类 实践 者 手动 搜索 ， 考 虑 实验 早期 可 以 收集 的 信息 量 ， 这 
种 方法 是 相当 低 效 的 ， 因 为 手动 搜索 通 第 可 以 很 早 判 断 出 有 示 组 超 参数 是 
个 是 完全 病态 的 。Swersky et al. (2014) 提出 了 一 个 可 以 维护 多 个 实验 





的 早期 版 本 算法 。 在 不 同 的 时 间 点 ， 超 参数 优化 算法 可 以 选择 开启 一 个 
新 实验 , “冻结 "正在 运行 但 希望 不 大 的 实验 ， 或 是 “解冻 "并 恢复 早期 被 
冻结 的 ， 但 现在 根据 更 多 信息 后 又 有 希望 的 实验 。 


11.5 ”调试 策略 


当 一 个 机 副 学 习 系 统 效 来 不 好 时 ， 通 第 很 难 判 断 效 果 不 好 的 原因 古 算法 
本 吴 ， 还 是 算法 实现 错误 。 由 于 各 种 原因 ， 机 硕 学 习 系统 很 难 调试 。 


在 大 多 数 情 况 下 ， 我 们 不 能 提前 知道 算法 的 行为 。 事 实 上 ， 使 用 机 器 学 
习 的 整个 出 发 点 是 ， 它 会 发 现 一 些 我 们 目 己 无 法 发 现 的 有 用 行为 。 如 果 
我 们 在 一 个 新 的 分 类 任务 上 训练 一 个 神经 网 络 ， 它 达到 5% HW 
过 ， 我 们 无 法 直接 知道 这 是 期 望 的 结果 ， 还 是 次 优 的 结果 。 


为 一 个 难点 是 ， 大 部 分 机 絮 学 习 模 型 有 多 个 上 日 适应 的 部 分 。 如 来 一 个 部 
分 失效 了 ， 其 他 部 分 仍然 可 以 目 适 应 ， 并 获 得 大 致 可 接受 的 性 能 。 例 

如 ， 假 设 我 们 正在 训练 多 层 神 经 网 络 ， 其 中 参数 为 权重 W A b 。 
进一步 假设 ， 我 们 单独 手动 实现 了 每 个 参数 的 梯度 下 降 规 则 。 而 我 们 在 
偏 置 更 新 时 犯 了 一 个 错误 : 


D+ 0—0 (11.4) 


其 中 ao 是 学 习 率 。 这 个 错误 更 新 没有 使 用 柳 度 。 它 会 寻 致 侦 症 在 整个 学 
习 中 不 断 变 为 负 值 ， 对 于 一 个 学 习 算法 来 说 这 显然 是 错误 的 。 然 而 只 是 
检查 模型 输出 的 话 ， 该 错误 可 能 并 不 是 蛙 而 多 见 的 。 根 据 输 入 的 分 布 ， 
权重 可 能 可 以 目 适 应 地 补偿 负 的 偶 症 。 


大 部 分 神经 网 络 的 调试 策略 都 是 解决 这 两 个 难题 中 的 一 个 或 两 个 。 我 们 
可 以 设计 一 种 足够 简单 的 情况 ， 能 够 提前 得 到 正确 结果 ， 判 断 模型 预 油 
是 否 与 之 相符 ， 我 们 也 可 以 设计 一 个 测试 ， 独 立 检查 神经 网 络 实现 的 各 
个 部 分 。 


一 些 重要 的 调试 检测 如 下 所 述 。 
可 视 化 计算 中 模型 的 行为 : 当 训 练 模型 检测 图 像 中 的 对 象 时 ， 奏 看 一 些 


模型 检测 到 部 分 午 夺 的 图 像 。 在 训练 语 首 生成 模型 时 ， 试 听 一 些 生成 的 
语 首 样本 。 这 似乎 是 习 而 易 见 的 ， 但 在 实际 中 很 容易 只 注意 量化 性 能 度 


E, WOME ROY BUA. ERMA Lae SF PRIS TES, ABT 
FFE LIA SA Se OPE Be Ge EAE. R PPRA TE Be AY Bee 
最 其 破坏 性 的 错误 之 一 ， 因 为 它们 会 使 你 在 系统 出 问题 时 误 以 为 系统 运 
行 民 好 。 


可 视 化 最 严重 的 错误 : 大 多 数 模 型 能 够 输出 运行 任务 时 的 菜 种 置信 和 皮 
量 。 例 如 ， 基 于 softmax 函 数 输出 层 的 分 类 需 给 每 个 类 分 配 一 个 概率 。 
因此 ， 分 配给 最 有 可 能 的 类 的 概率 给 出 了 模型 在 其 分 类 决定 上 的 置信 佑 
计 值 。 通 第 ， 相 比 于 正确 预测 的 概率 最 大 似 然 训 练 会 略 有 高 估 。 但 是 由 
于 实际 上 模型 的 较 小 概率 不 太 可 能 对 应 着 正确 的 标签 ， 因 此 它们 在 一 定 
意义 上 还 是 有 些 用 的 。 通 过 奏 看 训练 集中 很 难 正 确 建 梗 的 样本 ， 通 第 可 
以 友 现 该 数据 预 处 理 或 者 标记 方式 的 问题 。 例 如 ， 街 景 转录 系统 原本 有 
个 问题 是 ， 地 址 号 码 检测 系统 会 将 图 像 裁 甬 得 过 于 紧密 ， 而 省 略 反 了 一 
些 数 字 。 人 然后 转录 网 络 会 给 这 些 图 像 的 正确 答 腔 分 配 非 党 低 的 概率 。 将 
图 像 排 序 ， 确 定 置 信 虚 最 高 的 错误 ， 显 示 系 统 的 裁 荔 有 问题 。 修 改 检测 
系统 裁 弥 更 冤 的 图 像 ， 从 而 使 整个 系统 获得 更 好 的 性 能 ， 但 是 转录 网 络 
再 要 能 够 处 理 地 址 号 码 中 位 置 和 范围 更 大 变化 的 情况 。 


根据 训练 和 测试 误 到 检测 软件 ， 我 们 往往 很 难 确定 奔 层 软件 是 否 正 确实 
现 。 训 练 和 测试 误 弄 能够 提供 一 些 线索 。 如 果 训 练 误 弄 较 低 ， 但 古 测 试 
误 兰 较 局 ， 那 么 很 有 可 能 训练 过 程 是 在 正常 运行 ， 但 模型 由 于 算法 原因 
过 拟 合 了 。 夯 一 种 可 能 和 证， 测试 误差 没有 被 正确 地 上 度量， 可 能 是 由 于 训 
练 后 你 存 借 型 再 重 载 去 度量 测试 集 时 出 现 问 题 ， 或 者 旦 因为 测试 数据 和 
训练 数据 预 处 理 的 方式 不 同 。 如 采 训 练 和 测试 误差 都 很 高 ， 那 么 很 难 确 
定 是 软件 错误 ， 还 是 由 于 算法 原因 模型 玉 拟 合 。 这 种 情况 需要 进一步 的 
Mh HF Te TIE » 


拟 合 极 小 的 数据 集 : 当 训 练 集 上 有 很 大 的 误 焉 时， 我 们 十 要 确定 问题 十 
真正 的 欠 拟 合 ， 还 是 软件 错误 。 退 第 ， 即 使 是 小 模型 也 可 以 保证 很 好 地 
拟 合 一 个 足够 小 的 数据 集 。 例 如 ， 只 有 一 个 样本 的 分 闫 数据 可 以 通过 正 
全 设置 输出 层 的 偶 症 来 拟 合 。 通 单 ， 如 朱 不 能 训练 一 个 分 关 带 来 正确 标 
注 一 个 单独 的 样本 ， 或 不 能 训练 一 个 目 编码 规 来 成 功 地 精准 再 现 一 个 单 
独 的 和 样本， 或 不 能 训练 一 个 生成 模型 来 一 致 地 生成 一 个 单独 的 样本 ， 屠 
么 很 有 可 能 是 由 于 软件 错误 阻止 训练 集 上 的 成 功 优 化 。 些 测试 可 以 扩展 
到 只 有 少量 样本 的 小 数据 集 上 。 


比较 反 回 传播 导数 和 数值 导数 : 如 果 谈 者 正在 使 用 一 个 需要 实现 梯度 计 
算 的 软件 框架 ， 或 者 在 添加 一 个 新 操作 到 求 导 库 中 ， 必 须 定 义 它 的 
bprop 方法 ， 那 么 常见 的 错误 原因 是 没 能 正确 地 实现 梯度 表达 。 验 证 这 
些 求 导 正 确 性 的 一 种 方法 是 比较 上 自动 求 导 的 实现 和 通过 有 限 锚 分 

(finite difference) 计算 的 导数 。 因 为 


f(z +) — f(z) 


f'(x) = lim i (11.5) 
我 们 可 以 使 用 小 的 、 有 限 的 E 近似 导数 : 
MOR fla + €) — Nx) (11.6) 


我 们 可 以 使 用 中 心 差分 (centered difference) 提高 近似 的 准确 率 : 


F(z) = fa + 36) fes 96) = fe 2°) [7 ) 


€ 
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S 
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扰动 大 小 E ”必须 足够 大 ， 以 确保 该 扰动 不 会 由 于 数值 计算 的 有 限 精 度 
HA ERARE 


Er, RSMA g : R” 一 R” ”的 杨 度 或 Jacobian 逢 
阵 。 令 人 进 憾 的 是 ， 有 有 有限 差分 只 允许 我 们 每 次 计算 一 个 导数 。 我 们 可 以 
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图 数 《 在 函数 g 的 输入 得 出 都 加 上 随机 投影 ) 。 例 如 ， 我 们 可 以 将 导数 

实现 的 测试 用 于 函数 f(x) 二 ul g( vx) KP u 和 v kpl. EM 
算 f “(x) 要 求 能 够 正确 地 通过 g 反 辣 传 播 ， 但 是 使 用 有 限 到 分 能 够 遇 效 地 
计算 1， 因为 f 只 有 一 个 输入 和 一 个 输出 。 通 第 ， 一 个 好 的 方法 是 在 多 个 u 
EM yv 值 上 重复 这 个 测试 ， 可 以 减少 测试 色 略 了 垂 百 于 随机 投影 的 铺 误 
的 几率 。 


如 末 我 们 可 以 在 复数 上 进行 数值 计算 ， 那 么 使 用 复数 作为 函数 的 输入 会 
有 非常 高 效 的 数值 方法 估算 梯度 (Squire and Trapp, 1998) 。 访 方法 基 
于 如 下 观察 : 


f(a + ie) = f(x) + ief!(x) + O(€*) (11.8) 
real( f(x + ie)) = f(x) + O(e’), image( A249) = f'(x) + O(e*) (11.9) 


其 中 i = yl 。 和 上 面 的 实 值 情况 不 同 ， 这 里 不 存在 消除 影响 ， 因 为 
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算 差分 。 因 此 我 们 可 以 使 用 很 小 的 E ， 比 如 E =10 15° ， 其 中 误差 
O(e2) 对 所 有 实用 目标 都 是 微不足道 的 。 


监控 激活 函数 值 和 梯度 的 直方 图 : 可 视 化 神经 网 络 在 大 量 训练 迭代 后 

(也 许 是 一 个 轮 ) 收集 到 的 激活 函数 值 和 梯度 的 统计 量 往 往 是 有 用 的 。 
隐藏 单元 的 预 激 活 值 可 以 告诉 我 们 该 单元 是 否 饱和 ， 或 者 它们 饱和 的 频 
率 如 何 。 例 如 ， 对 于 整流 右 ， 它 们 多 和 久 关 一 次 ? 是 个 有 单元 一 直 关 闭 ? 
对 于 双 曲 正切 单元 而 言 ， 预 激活 绝对 值 的 平均 值 可 以 告诉 我 们 该 单元 的 
饱和 程度 。 在 深度 网 络 中 ， 传 播 梯度 的 快速 增长 或 快速 消失 ， 可 能 会 阻 
但 优化 过 程 。 最 后 ， 比 较 参 数 梯 度 和 参数 的 量 级 也 是 有 帮助 的 。 正 如 

(Bottou, 2015) 所 建议 的 ， 我 们 希望 参数 在 一 个 小 批量 更 新 中 变化 的 
幅度 是 参数 量 值 1% 这 样 的 级 别 ， 而 不 是 50% 或 者 0.001% (这 会 导致 参 
数 移动 得 太 慢 ) 。 也 有 可 能 是 某 些 参数 以 民 好 的 步 长 移动 ， 而 男 一 些 停 
滞 。 如 果 数 据 是 稀疏 的 《比如 卓然 语言 ，， 有 些 参 数 可 能 很 少 更 新 ， 检 
测 它们 变化 时 应 该 记 住 这 一 点 。 
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在 第 3 部 分 ， 我 们 将 看 到 一 些 使 用 代数 解决 优化 问题 的 近似 推 其 算法 。 
通 弟 ， 这 些 可 以 通过 测试 它们 的 每 个 你 
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11.6 示例 : 多 位 数字 识别 


为 了 端 到 端 地 说 明 如 何在 实践 中 应 用 我 们 的 设计 方法 论 ， 我 们 从 设计 深 
度 学 习 组 件 出 发 ， 简 单 地 介绍 一 下 街景 转录 系统 。 显 然 ， 整 个 系统 的 许 


多 其 他 组 件 ， 如 街景 和 车、 数据 库 设 施 等 ， 也 是 极其 重要 的 。 


从 机 硕 学 习 任务 的 视角 出 上 友 ， 首 先 这 个 过 程 要 采集 数据 。 街 景 车 收集 原 
始 数据 ， 然 后 操作 员 手 动 捉 供 标 和 俭 。 转 录 任 务 开始 前 有 大 量 的 数据 处 理 
工作 ， 包 括 在 转录 前 使 用 其 他 机 融 学 习 拉 术 探 测 房 屋 写 公 。 


转录 项 目 开 始 于 性 能 度量 的 选择 和 对 这 些 度量 的 期 望 值 。 一 个 重要 的 总 
原则 是 度量 的 选择 要 符合 项 目的 业务 目标 。 因 为 地 图 只 有 有 征 高 准确 率 时 
才 有 用 ， 所 以 为 这 个 项 目 谈 置 高 准确 率 的 要 求 非 党 重要 。 有 基体 地 ， 目 标 
是 达到 人 类 水 平 ，98% 的 准确 紊 。 这 种 程度 的 准确 率 并 不 是 总 能 达到 。 
为 了 达到 这 个 级 列 的 准确 京 ， 街 景 转录 系统 牺牲 了 禾苗。 因此 在 你 持 准 
傅 率 98% 的 情况 下 ， 黎 兰 成 了 这 个 项 目 优 化 的 主要 性 能 度量 。 随 看 合 积 
网 络 的 改进 ， 我 们 能 够 降低 网 络 拒绝 转录 输入 的 置信 度 国 什 ， 节 终 超出 
T in 95% 的 目标 。 


在 选择 量化 目标 后 ， 我 们 推荐 方法 的 下 一 步 是 要 快速 建立 一 个 合理 的 基 
准 系 统 。 对 于 视觉 任 务 而 言 ， 基 准 系 统 是 珊 有 整流 线性 单元 的 卷 积 网 

络 。 转 录 项 日 开始 于 一 个 这 样 的 檬 型 。 当 时 ， 使 用 知 积 网 络 输出 了 预测 序 
列 并 不 利 抑 。 开 始 时 ， 我 们 使 用 一 个 尽 可 能 简单 的 基准 模型 ， 该 模型 输 
出 层 的 第 一 个 实现 包含 n 个 不 同 的 softmax 单 元 来 预 训 nn 个 字符 的 序列 。 

我 们 使 用 与 训练 分 类 任务 相同 的 方式 来 训练 这 些 softmax 蛙 元 ， 独 立地 
训练 每 个 softmax 单 元 。 


我 们 建议 反复 细 化 这 些 基准 ， 并 测试 每 个 变化 是 否 都 有 改进 。 街 景 转 录 
系统 的 第 一 个 变化 受 油 励 于 履 新 指标 的 理论 理解 和 数据 结构 。 具 体 地 ， 
当 输 出 序列 的 概 众 低 于 某 个 值 t 好 p(y | x)<t 时 ， 网 络 拒绝 为 输入 x 分 
A, mH), py | x ) 的 定义 是 临时 的 ， 人 简单 地 将 所 有 softmax 函 数 输 出 
乘 在 一 起 。 这 促使 我 们 发 展 能 够 真正 计算 出 合理 对 数 似 然 的 特定 输出 层 
和 代价 函数 。 这 种 方法 使 得 样本 拒绝 机 制 更 有 效 。 


此 时 ， 黎 再 仍 低 于 90%， 但 该 方法 没有 明显 的 理论 问题 了 。 因 此 ， 我 们 
的 方法 论 建 议 绽 合 训练 集 和 汕 试 集 性 能 ， 以 确定 问题 是 否 灾 拟 合 或 过 拟 
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日 进 行 得 如 此 顺利 的 主要 原因 是 有 数 以 二 万 计 的 标注 样本 数据 集 可 用 。 
因为 训练 和 测试 集 的 误 友 是 如 此 相似 ， 这 表明 要 么 古 这 个 问题 久 拟 合 ， 
要 么 是 训练 数据 的 问题 。 我 们 推荐 的 调试 案 上 略 之 一 是 可 视 化 模型 最 糟 料 


的 错误 。 在 这 种 情况 下 ， 这 意味 着 可 视 化 不 正确 而 模型 给 了 最 高 置信 和 度 
的 训练 集 转录 结果 。 结 果 显 示 ， 主 要 是 输入 图 像 裁 盘 得 太 紧 ， 有 些 和 地 
址 相关 的 数字 被 裁剪 操作 除去 了 。 例 如 ， 地 址 “1849” 的 网 片 可 能 裁 切 得 
太 紧 ， 只 剩 下 “849" 是 可 见 的 。 如 果 我 们 花费 几 周 时 间 改 进 确定 裁 甬 区 
域 的 地 址 号 人 码 检 测 系 统 的 准确 率 ， 或 许 也 可 以 解决 这 个 问题 。 与 之 不 
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最 后 ， 性 能 提升 的 最 后 几 个 百分点 来 自 调 整 超 参数 。 这 主要 包括 在 保持 
一 些 计算 代价 限制 的 同时 加 大 模型 的 规模 。 因 为 训练 误 关 和 测试 误差 保 
持 几 乎 相等 ， 所 以 明确 表明 性 能 不 足 是 由 人 欠 拟 合 造 成 的 ， 数 据 集 本 里 也 
存在 一 些 问题 。 


总 体 来 说 ， 转 录 项 目 是 非 营 成 功 的 ， 可 以 比 人 工 速度 更 快 、 代 价 更 低地 
转录 数 以 亿 计 的 地 址 。 


我 们 希望 本 章 中 介绍 的 设计 原则 能 带 来 其 他 更 多 类 似 的 成 功 。 
第 12 章 ”应 用 


在 本 重 中 ， 我 们 将 介绍 如 何 使 用 帝 度 学 习 来 解雇 计算 机 视觉 、 语 音 识 
别 、 目 然 语 言 处 理 以 及 其 他 商业 领域 中 的 应 用 。 玫 人 移 我 们 将 讨论 在 许多 
最 重要 的 AI 应 用 中 所 需 的 大 规模 神经 网 络 的 实现 。 接 着 ， 我 们 将 回顾 深 
度 学 习 已 经 成 功 应 用 的 几 个 特定 领域 。 尽 各 深度 学 习 的 一 个 目标 是 设计 
能 够 处 理 各 种 任务 的 算法 ， 然 而 截至 目前 次 度 学 习 的 应 用 仍然 需要 一 定 
程度 的 特 化 。 人 例如， 计算机 视觉 中 的 任务 对 每 一 个 样本 都 需要 处 理 大 量 
的 输入 特征 《像素 ) ， 自 然 语言 处 理 任务 的 每 一 个 输入 特征 都 需要 对 大 
量 的 可 能 值 〈 词 汇 表 中 的 词 〉 建 柑 。 


12.1 KARO Ee 
深度 学 习 的 基本 思想 基于 联结 主义 ， 尽管 机 器 学 习 模 型 中 单个 生物 性 的 
神经 元 或 者 说 是 单个 特征 不 是 智能 的 ， 但 是 大 量 的 神经 元 或 者 特征 作用 


在 一 起 往往 能 够 表现 出 智能 。 我 们 必须 独 重 强调 神经 元 数量 必须 很 大 这 
个 事实 。 相 比 20 世 纪 80 年 代 ， 如 今 神 经 网 络 的 精度 以 及 处 理 任 务 的 复杂 


及 部 有 一 定 提 升 ， 其 中 一 个 关键 的 因 系 就 是 网 络 规 模 的 巨大 提升 。 正 如 
我 们 在 第 1.2.3 市 中 看 到 的 一 样 ， 在 过 去 的 30 年 内 ， 网 络 规模 是 以 指数 级 
的 速度 递增 的 。 然 而 如 今 的 人 工 神经 网 络 的 规模 也 仪 仅 和 昆虫 的 神经 系 
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由 于 规模 的 大 小 对 于 神经 网 络 来 说 全 天 香 要 ， 因 此 深度 学 习 需 要 局 性 能 
的 便 件 设施 和 软件 实现 。 


12.1.1 快速 的 CPU 实 现 


传统 的 神经 网 络 是 用 单 台 机 器 的 CPU 来 训练 的 。 如 今 ， 这 种 做 法 通常 被 
视 为 是 不 可 取 的 。 现 在 ， 我 们 通 钊 使 用 GPU 或 者 许多 人 台 机 堪 的 CPU 连接 
在 一 起 进行 计算 。 在 使 用 这 种 昂贵 配置 之 前 ， 为 论证 CPU 无 法 承担 神经 
网 络 所 需 的 巨大 计算 量 ， 研 究 者 们 付出 了 户 大 的 努力 。 


摘 述 如 何 实现 高 效 的 数值 CPU 代码 已 经 超出 了 本 书 的 讨论 范围 ， 但 是 我 
们 在 这 里 还 是 要 强调 通过 设计 一 些 特定 的 CPU 上 的 操作 可 以 大 大 提升 效 
率 。 例 如 ， 在 2011 年 ， 最 好 的 CPU 在 训练 神经 网 络 时 使 用 定点 运算 能 够 
比 浮 点 运算 跑 得 更 快 。 通 过 调整 定点 运算 的 实现 方式 ，Vanhoucke et al. 
(2011) 获得 了 3 们 于 一 个 强 浮 点 运算 系统 的 速度 。 因 为 各 个 新 型 CPU 

都 有 各 目 不 同 的 特性 ， 所 以 有 时 候 采 用 浮 点 运算 实现 会 更 快 。 一 条 重要 
的 准则 束 是 ， 通 过 特殊 设计 的 数值 运算 ， 我 们 可 以 获得 巨大 的 回报 。 除 
了 选择 定点 运算 或 者 浮 点 运算 以 外 ， 其 他 的 案 略 还 包括 了 如 通过 优化 数 
据 结 构 避 人 免 品 速 绥 存 缺失 、 使 用 同 量 指令 等 。 机 右 学 习 的 研究 者 们 大 多 
会 忽略 这 些 实 现 的 细节 ， 但 是 如 果菜 种 实现 限制 了 模型 的 规模 ， 那 诅 模 
型 的 精度 就 要 受到 影响 。 


12.1.2 GPU 实现 


许多 现代 神经 网 络 的 实现 基于 图 形 处 理 颖 (Graphics Processing Unit, 
GPU) 。 图 形 处 理 占 最 初 是 为 图 形 应 用 而 开发 的 专用 便 件 组 件 。 视 频 游 
戏 系统 的 消费 市 场 刺 泊 了 图 形 处 理 便 件 的 友 展 。GPU 为 视频 洲 戏 所 设计 
的 特性 也 可 以 使 神经 网 络 的 计算 受益 。 


视频 游戏 的 渔 染 要 求 许 多 操作 能 够 快速 并 行 地 执行 。 环 境 和 角色 模型 通 
过 一 系列 项 扣 的 3D 坐 标 确定 。 为 了 将 大 量 的 3D 坐 标 转 化 为 2D 喧 示 融 上 
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必须 并 行 地 在 每 个 像素 上 执行 诸多 计算 ， 来 确定 每 个 像素 点 的 颜色 。 在 
这 两 种 情况 下 ， 计 算 都 是 非 营 徐 单 的 ， 并 且 不 涉及 CPU 通 利 迪 到 的 复杂 
的 分 文 运 算 。 例 如 ， 同 一 个 刚体 内 的 每 个 项 氮 都 会 和 梯 上 相同 的 窃 阵 ， 也 
驶 是 说 ， 不 需要 通过 计 语 句 来 判断 和 确定 每 个 项 点 需要 乘 哪个 定 阵 。 各 
个 计算 过 程 之 间 也 十 完全 相互 独立 的 ， 因 此 能 够 实现 并 行 操作 。 计 算 过 
程 还 涉及 处 理 大 量 内 存 绥 冲 以 及 拍 述 每 一 个 需要 被 洽 染 对 象 的 纹理 〈 郑 
ERN) Wie. BARU, ROE RATAN A tei SPAT BEE DA 
及 很 高 的 内 存 市 宽 ， 同 时 也 付出 了 一 些 代 价 ， 如 相 比 传统 的 CPU 更 慢 的 
时 钟 速度 以 及 更 弱 的 处 理 分 文 运 算 的 能 


与 上 述 的 实时 网 形 算法 相 比 ， 神 经 网 络 算法 所 需要 的 性 能 特性 是 相同 
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统 的 桌面 计算 机 的 高 速 绥 存 (cache) ， 所 以 内 存 带 宽 通 常会 成 为 主要 

版 颈 。 相 比 CPU，GPU 一 个 最 彰 的 优势 是 其 极 高 的 内 存 市 宽 。 神 经 网 络 
的 训练 算法 通 间 并 不 涉及 大 量 的 分 文 运算 与 复杂 的 控制 指令 ， 所 以 更 适 
合 在 GPU 硬件 上 训练 。 由 于 神经 网 络 能 够 被 分 为 多 个 单独 的 “神经 元 ”， 

并 用 独立 于 同一 层 内 其 他 神经 元 进行 处 理 ， 所 以 神经 网 络 可 以 从 GPU 的 
FEAT PVE “PAS it HE YK o 


GPU 硬件 最 初 专 为 图 形 任务 而 设计 。 随 着 时 间 的 推移 ，GPU 也 变 得 更 灵 
活 ， 人 允许 定制 的 子 程序 处 理 转 化 顶点 坐标 或 者 计算 像 叉 颜色 的 任务 。 原 
则 上 上 ，GPU 不 要 求 这 些 像素 值 实际 基于 演 染 任务 。 只 要 将 计算 的 输出 值 
作为 像 系 值 写 入 绥 冲 区 ，GPU 束 可 以 用 于 科学 计算 。Steinkrau et al. 
(2005) 在 GPU 上 实现 了 一 个 两 层 全 连接 的 神经 网 络 ， 并 获得 了 相对 基 
于 CPU 的 基准 方法 3 倍 的 加 速 。 不 久 以 后 ，Chellapilla et al. (2006) 也 
论证 了 相同 的 技术 可 以 用 来 加 速 监督 郑 积 网 络 的 训练 。 


在 通用 GPU 发 布 以 后 ， 使 用 显卡 训练 神经 网 络 的 热度 开始 爆炸 性 地 增 
长 。 这 种 通用 GPU 可 以 执行 任意 的 代码 ， 而 并 非 仅仅 演 染 子 程序 。 
NVIDIA 的 CUDA 编 程 语言 使 得 我 们 可 以 用 一 种 像 C 一 样 的 语言 实现 任意 
代码 。 由 于 相对 简便 的 编程 模型 ， 强 大 的 并 行 能 力 以 及 巨大 的 内 存 市 
宽 ， 通 用 GPU 为 我 们 提供 了 训练 神经 网 络 的 理想 平台 。 在 它 发 布 以 后 不 
久 ， 这 个 平台 残 迅 速 被 深度 学 习 的 研究 者 们 所 采纳 (Raina et al. , 
2009b; Ciresan etal., 2010) 。 


如 何在 通用 GPU 上 写 高 效 的 代码 依然 是 一 个 难题 。 在 GPU 上 获得 良好 表 
现 所 需 的 拉 术 与 CPU 上 的 技术 非常 不 同 。 比 如 说 ， 基 于 CPU 的 民 好 代码 
通常 被 设计 为 尽 可 能 从 高 速 缓存 中 读 取 更 多 的 信息 。 然 而 在 GPU 中 ， 大 
多 数 可 写 内 存 位 置 并 不 会 被 高 速 缓存 ， 所 以 计算 某 个 值 两 次 往往 会 比 计 
算 一 次 然后 从 内 存 中 读 取 更 快 。GPU 代 码 是 天 生 多 线程 的 ， 不 同 线程 之 
间 必 须 仔 细 协 调 好 。 例 如 ， 如 果 能 够 把 数据 级 联 (coalesced) 起 来 ， 那 
么 涉及 内 存 的 操作 一 般 会 更 快 。 当 几 个 线程 同时 需要 读 / 写 一 个 值 时 ， 
像 这 样 的 级 联 会 作为 一 次 内 存 操作 出 现 。 不 同 的 GPU 可 能 采用 不 同 的 级 
联 读 / 写 数 据 的 方式 。 通 常 来 说 ， 如 果 在 n 个 线程 中 ， 线 程 i 访 问 的 是 第 i+]j 
处 的 内 存 ， 其 中 j 是 2 的 某 个 虹 的 倍数 ， 那 么 内 存 操作 束 易 于 级 联 。 具 体 
的 设 定 在 不 同 的 GPU 型 号 中 有 所 区 别 。GPU 男 一 个 常见 的 设 定 是 使 一 个 
组 中 的 所 有 线程 都 同时 执行 同一 指令 。 这 意味 着 GPU 难 以 执行 分 支 操 
作 。 线 程 被 分 为 一 个 个 称 作 warp 的 小 组 。 在 一 个 warp 中 的 每 一 个 线程 
在 每 一 个 循环 中 执行 同一 指令 ， 所 以 当 同 一 个 warp 中 的 不 同 线 程 需要 执 
行 不 同 的 指令 时 ， 需 要 使 用 串 行 而 非 并 行 的 方式 。 


由 于 实现 高 效 GPU 代码 的 困难 性 ， 研 究 人 员 应 该 组 织 好 他 们 的 工作 流 
程 ， 避 免 对 每 一 个 新 的 模型 或 算法 都 编写 新 的 GPU 代码 。 通 钊 来 讨 ， 人 
们 会 选择 建立 一 个 包含 高 效 操作 (如 大 积 和 算 阵 习 法 ) 的 软件 库 解 决 这 
个 问题 ， 然 后 再 从 库 中 调用 所 需要 的 操作 确定 模型 。 例 如 ， 机 硕 学 习 库 
Pylearn2 (Goodfellow et al. , 2013e) 将 其 所 有 的 机 器 学 习 算 法 都 通过 
调用 Theano (Bergstra et al. , 2010c; Bastien et al. , 2012a) 和 cuda- 
convnet (Krizhevsky, 2010) 所 提供 的 高 性 能 操作 来 指定 。 这 种 分 解 方 
法 还 可 以 人 徐 化 对 多 种 硬件 的 文 持 。 例 如 ， 同 一 个 Theano 程 序 可 以 在 CPU 
或 者 GPU 上 运行 ， 而 不 需要 改变 调用 Theano 的 方式 。 其 他 库 如 
TensorFlow (Abadi et al. , 2015) 和 Torch (Collobert et al. , 2011b) 也 
提供 了 类 似 的 功能 。 


12.1.3 ”大 规模 的 分 布 式 实现 


在 许多 情况 下 ， 蛙 个 机 如 的 计算 资源 是 有 限 的 。 因 此 ， 我 们 希望 把 训练 
或 者 推断 的 任务 分 摊 人 到 多 个 机 右上 进行 。 


分 布 式 的 推 凯 是 容易 实现 的 ， 因 为 每 一 个 输入 的 样本 都 可 以 在 单独 的 机 
敌 上 运行 。 这 也 被 称 为 数据 并 行 (data parallelism) 。 


同样 地 ， 模 型 并 行 (model parallelism) 也 是 可 行 的 ， 其 中 多 个 机 器 共 
同 运行 一 个 数据 点 ， 每 一 个 机 器 负责 模型 的 一 个 部 分 。 对 于 推 有 产 和 训 
练 ， 这 都 是 可 行 的 。 


在 训练 过 程 中 ， 数 据 并 行 从 茶 种 程度 上 来 说 更 加 困难 。 对 于 随机 梯度 下 
降 的 单 步 来 说 ， 我 们 可 以 增加 小 批量 的 大 小 ， 但 是 从 优化 性 能 的 角度 来 
说 ， 我 们 得 到 的 回报 通常 并 不 会 线性 增长 。 使 用 多 个 机 器 并 行 地 计算 多 
个 梯度 下 降 步 骤 是 一 个 更 好 的 选择 。 不 对 的 是 ， 梯 度 下 降 的 标准 定义 完 
全 是 一 个 串 行 的 过 程 : 第 t 步 的 柳 度 是 第 f-1 步 所 得 参数 的 函数 。 


这 个 问题 可 以 使 用 异步 随机 梯度 下 降 (Asynchoronous Stochasitc 
Gradient Descent) (Bengio etal. ，2001b; Recht et al. , 2011) 解决 。 
在 这 个 方法 中 ， 几 个 处 理 亏 的 核 共 用 存 有 参数 的 内 存 。 每 一 个 核 在 无 锁 
的 情况 下 旋 取 这 些 参数 ， 并 计算 对 应 的 梯度 ， 然 后 在 无 锁 状 态 下 更 新 这 
些 参数 。 由 于 一 些 核 把 其 他 的 核 所 更 新 的 参数 履 关 了 了 ， 因 此 这 种 方 读 减 
少 了 每 一 步 梯度 下 降 有 所 获得 的 平均 提升 。 但 因为 更 狐 步 数 的 速 案 增加 ， 
总 体 上 还 是 加 快 了 学 习 过 程 。Dean et al. (2012) 率先 提出 了 多 机 器 无 
锁 的 樟 上 度 下 降 方法 ， 其 中 参数 是 由 参数 服务 器 (parameter server) 管理 
MSE ATESE NAEP. OSU RAP PRE BRETT IER A S IKRE 
SH ZS [RN ZH AEA R, SPA MIME HHEH CChilimbi et 
al. , 2014; Wu et al. , 2015) 。 学 术 界 的 深度 学 习 研 究 者 们 通 币 无 法 
负担 那么 大 规模 的 分 布 式 学 习 系 统 ， 但 是 一 些 研 究 仍 天 注 于 如 何在 校园 
环境 中 使 用 相对 廉价 的 便 件 系统 构造 分 布 式 网 络 (Coates et al , 
2013) 。 


12.1.4 模型 压缩 


在 许多 商业 应 用 的 机 规 学 习 模 型 中 ， 一 个 时 间 和 内 存 开销 较 小 的 推 间 算 
法 比 一 个 时 间 和 内 存 开 销 较 小 的 训练 算法 要 更 为 重要 。 对 于 那些 不 需要 
个 性 化 设计 的 应 用 来 说 ， 我 们 只 需要 一 次 性 地 训练 模型 ， 然 后 它 束 可 以 
包 成 干 上 万 的 用 户 使 用 。 在 许多 情况 下 ， 相 比 开 肥 着 ， 终 痕 用 尸 的 可 用 
资源 往往 更 有 限 。 例 如 ， 开 及 痢 们 可 以 使 用 巨大 的 计算 机 集群 训练 一 个 
语音 识别 的 网 络 ， 然 后 将 其 部 普 到 移动 手机 上 。 


减少 推 产 所 需 开 销 的 一 个 关键 策略 是 模型 压缩 (model compression) 
(Bucilui et al. , 2006) 。 寞 型 压缩 的 基本 思想 是 用 一 个 更 小 的 模型 取 
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更 少 。 
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个 模型 很 大 《〈 例 如， 如 果 它 使 用 Dropout 正 则 化 ) 时 ， 其 泛 化 能 力也 会 
很 好 。 


这 些 巨大 的 模型 能 够 学 习 到 东 个 函数 人 x )， 但 选用 的 参数 数量 超过 了 任 
务 所 需 的 参数 数量 。 只 是 因为 训练 样本 数 是 有 限 的 ， 所 以 模型 的 规模 才 
变 得 必要 。 只 要 我 们 拟 合 了 这 个 函数 人 x ), RIID Wow OR EYE AY F 
随机 米 样 上 x 来 生成 有 无 穷 多 训练 样本 的 训练 集 。 然 后 ， 我 们 使 用 这 些 
样本 训练 一 个 狐 的 更 小 的 檬 型 ， 使 其 能 够 在 这 些 点 上 拟 合 f( x )。 为 了 更 
加 充分 地 利用 这 个 新 的 小 模型 的 容量 ， 最 好 从 类 似 于 其 实测 试 数据 (之 
后 将 提供 给 模型 ) 的 分 布 中 采样 x 。 这 个 过 程 可 以 通过 损坏 训练 样本 或 
者 从 原始 训练 数据 训练 的 生成 模型 中 采样 完成 。 


此 外 ， 我 们 还 可 以 仪 在 原始 训练 数据 上 训练 一 个 更 小 的 模型 ， 但 只 是 为 
了 复制 模型 的 其 他 特征 ， 比 如 在 不 正确 的 类 上 的 后 验 分 布 (Hinton et al. 
, 2014, 2015) . 


12.1.5 ”动态 结构 


一 般 来 说 ， 加 速 数据 处 理 系 统 的 一 种 策略 是 构造 一 个 系统 ， 这 个 系统 用 
动态 结构 (dynamic structure) HR A PAE A are TT ae. TE 
给 定 一 个 输入 的 情况 中 ， 数 据 处 理 系 统 可 以 动态 地 决定 运行 神经 网 络 系 
统 的 哪 一 部 分 。 单 个 神经 网 络 内 部 同样 也 存在 动态 结构 ， 给 定 输入 信 
To WERE KRA) 哪 一 部 分 用 于 计算 。 这 种 神经 网 络 中 的 动态 
结构 有 时 被 称 为 条 件 计 算 (conditional computation) (Bengio, 2013; 
Bengio et al. , 2013b) 。 由 于 模型 结构 许多 部 分 可 能 只 跟 输 入 的 一 小 部 
分 有 有 天， 只 计算 那些 需要 的 特征 束 可 以 起 到 加 速 的 目的 。 


动态 结构 计算 是 一 种 基础 的 计算 机 科学 方法 ， 厂 沁 应 用 于 软件 工程 项 
目 。 应 用 于 神经 网 络 的 最 简单 的 动态 结构 基于 决定 神经 网 络 ( 或 者 其 他 
机 慢 学 习 模 型 中 的 哪些 子 集 需 要 应 用 于 特定 的 输入 。 


FET Ras PUR HE TY AATRE HRE Ccascade) WAIK 
目标 是 检测 罕见 对 象 〈 或 事件 ) FERRE, FT DIMA RS. 
定 对 象 是 否 存 在 ， 我 们 必须 使 用 具有 高 容量 、 运 行 成 本 高 的 复杂 分 类 

研 。 然 而 ， 因 为 对 象 是 罕见 的 ， 我 们 通 彰 可 以 使 用 更 少 的 计算 拒绝 不 包 
伟 对 象 的 输入 。 在 这 些 情况 下 ， 我 们 可 以 训练 一 序列 分 类 右 。 序 列 中 的 
BHT RBA ARAS, VARA RA. Mai, ENIH YI 
练 为 确保 对 象 存 在 时 ， 我 们 不 会 错误 地 拒绝 输入 。 最 后 一 个 分 次 右 被 训 
练 为 具有 高 精度 。 在 测试 时 ， 我 们 按照 顺序 运行 分 类 亏 进行 推 闻 ， 一 旦 
级 联 中 的 任何 一 个 拒绝 它 ， 束 选择 抛 寞 。 总 的 来 说 ， 这 人 允许 我 们 使 用 高 
容量 模型 以 较 高 的 置信 度 验 证 对 象 的 存在 ， 而 不 是 强制 我 们 为 每 个 样本 
付出 完全 推 采 的 成 本 。 有 两 种 不 同 的 方式 可 以 使 得 级 联 实现 高 容量 。 一 
种 方法 是 使 级 联 中 靠 后 的 成 员 单 独 具 有 高 容量 。 在 这 种 情况 下 ， 由 于 系 
统 中 的 一 些 个 体 成 员 具 有 禹 容量 ， 因 此 系统 作为 一 个 整体 显然 也 有 具有 融 
容量 。 还 可 以 使 用 另 一 种 级 联 ， 其 中 每 个 单独 的 模型 具有 低 容 量 ， 但 是 
由 于 许多 小 型 模型 的 组 合 ， 整 个 系统 具有 遍 容 量 。Viola and 
Jones (2001) 使 用 级 联 的 增强 决策 树 实 现 了 适合 在 手持 数字 相机 中 使 

用 的 快速 并 且 角 标的 面部 检测 妖 。 本 质 上 ， 它 们 的 分 类 噩 使 用 滑动 窗口 
方法 来 定位 面部 。 分 类 噩 会 检查 许多 的 窗口 ， 如 果 这 些 窗口 内 不 包含 面 
部 则 被 拒绝 。 级 联 的 男 一 个 版 本 使 用 早期 模型 来 实现 一 种 便 注 意 力 机 
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情况 下 执行 进一步 处 理 。 例 如 ，Google 使 用 两 步 级 联 从 街景 视图 图 像 中 
转换 地 址 编号 : 首先 使 用 一 个 机 占 学 习 模 型 查找 地 址 编写 ， 然 后 使 用 男 
一 个 机 器 学 习 模 型 将 其 转录 (Goodfellow et al., 2014d) . 


决策 树 本 里 是 动态 结构 的 一 个 例子 ， 因 为 树 中 的 每 个 节点 决定 应 该 使 用 
哪个 子 树 来 评估 输入 。 一 个 结合 深度 学 习 和 动态 结构 的 简单 方法 是 训练 
一 个 决策 树 ， 其 中 每 个 节点 使 用 神经 网 络 作 出 决策 (Guo and Gelfand, 
1992) ， 虽 然 这 种 方法 疫 有 实现 加 速 推 半 计算 的 目标 。 


类 似 地 ， 我 们 可 以 使 用 称 为 选 通 需 (gater) 的 神经 网 络 来 选择 在 给 定 
当 醒 输入 的 情况 下 将 使 用 几 个 专家 网 络 Cexpert network) 中 的 哪 一 个 
来 计算 输出 。 这 个 想法 的 第 一 个 版 本 被 称 为 专 字 混合 体 (mixture of 
experts) (Nowlan, 1990; Jacobs et al. , 1991) ， 其 中 选 通 器 为 每 个 
专家 输出 一 个 概率 或 权重 〈 通 过 非 线性 的 softmax 函 数 获 得 ) ， 并 有 旦 最 

终 输 出 由 各 个 专家 输出 的 加 权 组 合 获 得 。 在 这 种 情况 下 ， 使 用 选 通 右 不 
会 降低 计算 成 本 ， 但 如 条 每 个 样本 的 选 通融 选择 单个 专家 ， 我 们 融会 获 


1a — MERIAL TEE AEG Ss (hard mixture of experts) (Collobert et al. 
» 2001, 2002) , AP LAINRETEDT AUIS. REE ase HY Be IR) 
时 ， 这 个 策略 效果 会 很 好 ， 因 为 它 不 是 组 合 的 。 但 古 当 我 们 想 要 选择 不 
同 的 单元 或 参数 子 集 时 ， 不 可 能 使 用 “ 软 开 天 ”， 因 为 它 害 要 枚 举 〈( 和 计 
算 和 输出) 所 有 的 选 明 颖 配置 。 为 了 解决 这 个 问题 ， 许 多 工作 探索 了 几 种 
方法 来 训练 组 合 的 选 通 器 。Bengio et al. (2013b) 提出 使 用 选 通 器 概率 
WERE Fit. mMiBacon et al. (2015) ~ Bengio etal. (2015a) 使 
用 强化 学 习 技 术 ( 策 略 梯度 (policy gradient) ) 来 学 习 一 种 Dropout 的 
条 件 形式 “作用 于 隐 泸 单元 块 )， 减 少 了 实际 的 计算 成 本 ， 而 不 会 对 近 
似 的 质量 产生 负面 影 啊 。 


为 一 种 动态 结构 是 开关 ， 其 中 隐藏 单元 可 以 根据 具体 情况 从 不 同音 元 接 
收 输 入 。 这 种 动态 路 由 方法 可 以 理解 为 注意 力 机 制 (attention 
mechanism) (Olshausen et al. , 1993) 。 有 目前 为 止 ， 便 性 开关 的 使 用 
在 大 规模 应 用 中 还 没有 被 证 明 是 有 效 的 。 较 为 先进 的 方法 一 般 采 用 对 许 
多 可 能 的 输入 加 权 平 均 ， 因 此 不 能 完全 得 到 动态 结构 所 市 来 的 计算 荔 
处 。 和 先进 的 注意 力 机 制 将 在 第 12.4.5.1 六 中 描述 。 


使 用 动态 结构 化 系统 的 主要 障碍 是 由 于 系统 针对 不 同和 输入 的 不 同 代码 分 
文 寻 致 的 并 行 度 降 低 。 这 意味 痢 网 络 中 只 有 很 少 的 操作 可 以 被 朱 述 为 对 
样本 小 批量 的 窍 阵 乘法 或 批量 邦 积 。 我 们 可 以 与 更 多 的 专用 子 程序 ， 用 
不 同 的 核对 样本 做 吞 积 ， 或 者 通过 不 同 的 权重 列 来 乘 以 设计 矩阵 的 每 一 
行 。 不 羊 的 是 ， 这 些 专 用 的 子 程序 难以 遍 效 地 实现 。 由 于 缺乏 高 速 缓存 
的 一 致 性 ，CPU 实 现 会 十 分 缓慢 。 此 外 ， 由 于 缺乏 级 联 的 内 存 操作 以 及 
warp 成 员 使 用 不 同 分 文 时 需要 串 行 化 操作 ，GPU 的 实现 也 会 很 慢 。 在 一 
些 情况 下 ， 我 们 可 以 通过 将 样本 分 成 组 ， 并 且 都 及 用 相同 的 分 文 并 且 同 
时 处 理 这 些 样本 组 的 方式 来 绥 解 这 些 问 题 。 在 离线 环境 中 ， 这 有 是 最 小 化 
处 理 固定 量 样本 所 十 时 间 的 一 项 可 接受 的 策略 。 然 而 在 实时 系统 中 ， 样 
本 必须 连续 处 理 ， 对 工作 负载 进行 分 区 可 能 会 导致 负载 均衡 问题 。 例 
GH, MOREA — BL aie Ah IEP FF RA Le Ab ERK 
中 的 最 后 一 步 ， 那 么 第 一 台 机 如 将 倾 回 于 过 载 ， 最 后 一 个 机 右倾 回 于 欠 
a A E SU RE 
和 问题。 


12.1.6 ”深度 网 络 的 专用 硬件 实现 


AFB ZS ZR PTO, MR ae ZED BY De aH 
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近 的 专用 人 硬件 深度 网 络 的 评论 (Lindsey and Lindblad, 1994; Beiu et al. 
，2003; Misraand Saha, 2010) 。 


不 同形 式 的 专用 人 硬件 (Graf and Jackel, 1989; Mead and Ismail, 2012: 

Kim et al. , 2009; Pham etal. , 2012; Chen et al. , 2014b, a) 的 研究 
己 经 持续 了 好 几 十 年 ， 比 如 专用 集成 电路 (application-specific 
integrated circuit, ASIC) 的 数字 《基于 数字 的 二 进 制 表 示 ) 、 模 拟 
(Graf and Jackel, 1989; Mead and Ismail, 2012) (基于 以 电压 或 电流 
表示 连续 值 的 物理 实现 ) 和 混合 实现 〈 组 合 数字 和 模拟 组 件 ) 。 近 年 来 
更 灵活 的 现场 可 编程 门 阵列 (field programmable gated array, FPGA) 

实现 〈 其 中 电路 的 具体 细节 可 以 在 制造 完成 后 写 入 心 请 ) 也 得 到 了 长 足 
发 展 。 


里 然 CPU 和 GPU 上 的 软件 实现 通常 使 用 32 位 或 64 位 的 精度 来 表示 浮 扣 
数 ， 但 是 长 期 以 来 使 用 较 低 的 精度 在 更 短 的 时 间 内 完成 推 半 也 是 可 行 的 
(Holt and Baker，1991; Holi and Hwang，1993; Presley and Haggard， 
1994; Simard and Graf, 1994; Wawrzynek et al. , 1996; Savich et al. 
» 2007) 。 这 已 成 为 近年 来 更 迫切 的 问题 ， 因 为 深度 学 习 在 工业 产品 中 
越 来 越 受 欢迎 ， 并 且 由 于 更 快 的 便 件 产生 的 巨大 影 啊 已 经 通过 GPU 的 使 
用 得 到 了 证 明 。 激 励 当前 对 深度 网 络 专用 硬件 研究 的 另 一 个 因素 是 单个 
CPU 或 GPU 核心 的 进展 速度 已 经 减 怪 ， 并 且 最 近 计 算 速 度 的 改进 来 目 核 
心 的 并 行 化 (无 论 CPU 还 是 GPU)〉。 这 与 20 世 纪 90 年 代 的 情况 (上 一 个 
神经 网 络 时 代 ) 的 不 同 之 处 在 于 ， 神 经 网 络 的 便 件 实现 《从 开始 到 心 
可 用 可 能 需要 两 年 ) 跟 不 上 快速 进展 和 价格 低廉 的 通用 CPU 的 脚步 。 
此 ， 在 针对 诸如 手机 等 低 功 率 设 备 开 友 新 的 便 件 人 设计， 并且 想 要 用 于 深 
度 学 习 的 一 般 公 众 应 用 《例如 ， 有 共有 语音、 计算 机 视觉 或 目 然 语 言 功能 

的 设施 ) 时 ， 研 究 专 用 便 件 能 够 进一步 推动 其 友 展 。 


最 近 对 基于 反问 传播 神经 网 络 的 低 精 度 实现 的 工作 (Vanhoucke et al. , 
2011; Courbariaux et al. ，2015; Gupta etal. ，2015) 表明 ，8 位 和 16 位 
之 轩 的 精度 足以 满足 使 用 或 训练 基于 反 回 传播 的 深度 神经 网 络 的 要 求 。 
显而易见 的 征 ， 在 训练 期 间 需 要 比 在 推 盎 时 更 高 的 精度 ， 并 且 数 字 肝 些 
形 陈 的 动态 定点 表示 能 够 减少 每 个 数 需 要 的 存储 空间 。 传 统 的 定点 数 被 
限制 在 一 个 固定 范围 之 内 《其 对 应 于 浮 点 表示 中 的 给 定 指数 ) 。 而 动态 


定 扩 表示 在 一 组 数学 〈 例 如 一 个 层 中 的 所 有 权 童 ) CIARA. E 
用 定点 代 痊 浮 点 表示 并 且 每 个 数 便 用 较 少 的 比特 能 够 减少 执行 乘法 所 需 
的 硬件 表面 积 、 功 率 青 求 和 计算 时 间 。 而 乘法 已 经 是 使 用 或 训练 反 回 传 
播 的 现代 帝 度 网 络 中 要 求 最 高 的 操作 。 


12.2 TFE PLIL E 
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挑战 的 任务 (Ballard et al. , 1983) 。 深 度 学 习 中 许多 流行 的 标准 基准 
任务 包括 对 象 识 列 和 光学 字符 识别 。 


计算 机 视觉 是 一 个 非常 广阔 的 发 展 领域 ， 其 中 包括 多 种 多 样 的 处 理 图 卢 
的 方式 以 及 应 用 方 同 。 计 算 机 视 党 的 应 用 广泛 : 从 复 现 人 类 视觉 能 
(比如 识别 人 脸 ) 到 创造 全 新 的 视 沉 能力。 举 个 后 者 的 例 了 于 ， 近 期 一 个 
新 的 计算 机 视觉 应 用 是 从 视频 中 可 视 物 体 的 振动 识别 相应 的 声 激 

(Davis et al. , 2014) 。 大 多 数 计 算 机 视 党 领域 的 深度 学 习 研 究 未 曾 关 
注 过 这 样 一 个 奇异 的 应 用 ， 它 扩展 了 图 像 的 范围 ， 而 不 是 仅仅 关注 于 人 
工 和 留 能 中 较 小 的 核心 目标 复制 人 类 的 能 力 。 无 论 是 报告 图 像 中 存在 
哪个 物体 ， 还 是 给 图 像 中 每 个 对 象 周 围 深 加 注释 性 的 边框 ， 或 从 图 像 中 
转录 符号 序列 ， 或 给 岁 像 中 的 每 个 像素 标记 它 所 属 对 象 的 标识 ， 大 多 数 
计算 机 视觉 中 的 深度 学 习 往 往 用 于 对 象 识别 或 者 某 种 形式 的 检测 。 由 于 
生成 模型 已 经 是 深 卜 学 习 研 究 的 指导 原则 ， 因 此 还 有 大 量 图 像 合 成 工作 
EH TRER., KERBER CEFA”) 通 沼 不 包括 在 计算 机 视 
tA, (Ae Ree TET ARG RH tea TARE, BÉR BNA H 
的 缺陷 或 从 图 像 中 移 除 对 象 这 样 的 计算 机 视 党 任务 。 


12.2.1 JHALIE 


由 于 原始 输入 往往 以 深度 学 习 架 构 难 以 表示 的 形式 出 现 ， 许 多 应 用 领域 
需要 复杂 精细 的 预 处 理 。 计 算 机 视 党 通 币 只 需要 相对 少 的 这 种 预 处理 。 
图 像 应 该 被 标准 化 ， 从 而 使 得 它们 的 像素 都 在 相同 并 且 人 合理 的 范围 内 ， 
比如 LO, 1] Æ L-1, 1] 。 将 Lo, 1] 中 的 图 像 与 [0，255] 中 的 
图 像 混合 ， 通 肖 会 导 人 到 失败。 将 图 像 格 式 化 为 具有 相同 的 比例 ， 严 格 上 
说 是 唯一 一 种 必要 的 预 处 理 。 许 多 计算 机 视觉 架构 需要 标准 尺寸 的 图 
像 ， 因 此 必须 裁剪 或 缩放 图 像 以 适应 该 尺寸 。 然 而 ， 严 格 地 说 即使 是 这 





种 重新 调整 比例 的 操作 并 不 总 是 必要 的 。 一 些 卷 积 模型 接受 可 变 大 小 的 
输入 ， 并 动态 地 调整 它们 的 池 化 区 域 大 小 以 保持 输出 大 小 恒定 CWaibel 
et al. , 1989) 。 其 他 郑 积 模型 具有 可 变 大 小 的 输出 ， 其 尺寸 随 输入 目 
动 缩放 ， 例 如 对 图 像 中 的 每 个 像素 进行 去 噪 或 标注 的 模型 (Hadsell et 
al., 2007) 。 


数据 集 增 强 可 以 被 看 作 一 种 只 对 训练 集 做 预 处 理 的 方式 。 数 据 集 增强 是 
减少 大 多 数 计 算 机 视 毅 模型 泛 化 误 于 的 一 种 极 好 方法 。 在 测试 时 可 用 的 
一 个 相关 想法 是 将 同一 输入 的 许多 不 同 厂 本 传 给 模型 〈 例 如 ， 在 稍微 不 
辣 的 位 置 处 裁 草 的 相同 图 像 ) ， 并 且 和 在 模型 的 不 同 实 例 上 雇 定 个 型 的 输 
出 。 后 一 个 想法 可 以 被 理解 为 集成 方法 ， 并 且 有 助 于 减少 泛 化 误 到 。 


其 他 种 类 的 预 处 理 需要 同时 应 用 于 训练 集 和 测试 集 ， 其 目的 是 将 每 个 样 
本 置 于 更 规范 的 形式 ， 以 便 减 少 模型 需要 考虑 的 变化 量 。 减 少数 据 中 的 
变化 量 既 能 够 减少 泛 化 误 兰 ， 也 能 够 减 小 拟 合 训练 集 所 需 模 型 的 大 小 。 
更 简单 的 任务 可 以 通过 更 小 的 模型 来 解决 ， 而 更 简单 的 解决 方案 泛 化 能 
力 一 般 更 好 。 这 种 类 型 的 预 处 理 通常 被 设计 为 去 除 输 入 数据 中 的 某 种 可 
变性 ， 这 对 于 人 工 设计 着 来 说 是 容易 搞 述 的 ， 并 且 人 工 设计 者 能 够 保证 
不 党 到 任务 影响 。 当 使 用 大 型 数据 集 和 大 型 模型 训练 时 ， 这 种 预 处 理 通 
常 是 不 必要 的 ， 并 且 最 好 只 是 让 模型 学 习 哪 些 变 化 性 应 该 保留 。 例 如 ， 
用 于 分 类 ImageNet 的 AlexNet 系 统 仅 具有 一 个 预 处 理 步 又 : WEMA 
减 去 训练 样本 的 平均 值 (Krizhevsky et al. 2012b) 。 


12.2.1.1 XT H E H — h 


在 许多 任务 中 ， 对 比 度 是 能 够 安全 移 除 的 最 为 明显 的 变化 源 之 一 。 简 单 
地 说 ， 对 比 度 指 的 是 图 像 中 亮 像素 和 暗 像素 之 间 差异 的 大 小 。 量 化 图 像 
对 比 度 有 许多 方式 。 在 深度 学 习 中 ， 对 比 度 通常 指 的 是 图 像 或 图 像 区 域 
中 像素 的 标准 差 。 假 设 我 们 有 一 个 张 量 表示 的 图 像 X CRIXcx8 ， 其 
中 ，X aaa 表示 第 i 行 第 j 列 红色 的 强度 ，X ;,,，，， 对 应 的 是 绿色 的 强 
度 ，X 4, 4, 3 对 应 的 是 蓝 色 的 强度 。 然 后 整个 图 像 的 对 比 度 可 以 表示 如 
下 : 


(12.1) 





其 中 和 是 整个 图 卢 的 平均 强度 ， 满 足 
X = DDD (12.2) 


全 局 对 比 度 归 一 化 (global contrast normalization, GCN) 由 在 通过 从 
每 个 图 像 中 减 去 其 平均 值 ， 然 后 重新 缩放 使 其 像素 上 的 标准 委 等 于 未 个 
T ASRKI ERRA RKI EE. AAAA RR, KAMARA A 
LAF AY VA PAR SS MT EER OMA BRRR SS RE RAY 
比 度 。 有 具有 非 第 低 但 非 零 对 比 度 的 图 像 通 第 几乎 没有 信息 内 容 。 在 这 种 
情况 下 除 以 真实 标准 差 通 弟 仅 能 放大 传 感 夯 噪声 或 压缩 伪 像 。 这 种 现象 
局 发 我 们 引入 一 个 小 的 正 的 正则 化 参数 和 来 平衡 估计 的 标准 震 。 或 者 ， 
我 们 全 少 可 以 约束 分 母 使 其 大 于 等 于 CE 。 给 定 一 个 输入 图 像 X ， 全 局 
对 比 度 归 一 化 产生 输出 图 像 X' ， 定 义 为 


Xi 大 一 X 
fa sJ; 
Xi j,k = $ 


: - (12.3) 
max{fe, \/ 入 十 = Eas Fpa r 





(Xian — X)?} 
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的 ， 并 且 在 非常 罕见 的 情况 下 为 了 避免 除 以 0， 通 过 将 E_ 设置 为 一 个 非 
常 小 的 值 比 如 说 10 飞 。 这 也 是 Goodfellow et al. (2013c) 在 CIFAR-10 数 
ete EATER TA. BALES BH) ARE n peH A LP Se 
使 得 激进 的 正则 化 更 有 用 。 在 处 理 从 CIFAR-10 数 据 中 随机 选择 的 小 区 
IA, Coates etal. (2011) 使 用 € =0, A=10. 


尺度 参数 通常 可 以 设置 为 1 (如 Coates etal. (2011) 所 采用 的 ) ， 或 选 
择 使 所 有 样本 上 每 个 像 系 的 标准 大 接 这 1 (如 Goodfellow et al. 
(2013c) 所 采用 的 ) 。 


式 〈12.3) 中 的 标准 差 仅 仅 是 对 图 片 L“ 范 数 的 重新 缩放 〈 假 设 图 像 的 平 
均值 已 经 被 移 除 ) 。 我 们 更 偏 同 于 根据 标准 差 而 不 是 L l 范 数 来 定义 
GCN， 因 为 标准 甜 包 括 除 以 像素 数量 这 一 步 ， 从 而 基于 标准 差 的 GCN 
能 够 使 用 与 图 像 大 小 无 关 的 固定 的 s。 人 然而， 观察 到 L 2 范 数 与 标准 差 成 
比例 ， 这 符合 我 们 的 直觉 。 我 们 可 以 把 GCN 理 解 成 到 球 壳 的 一 种 映射 ， 


图 12.1 对 此 有 所 说 明 。 这 可 能 是 一 个 有 用 的 属性 ， 因 为 神经 网 络 往往 更 
好 地 响应 空间 方向 ， 而 不 是 精确 的 位 置 。 响 应 相同 方向 上 的 多 个 距离 需 
要 具有 共 线 权重 向 量 但 具有 不 同 偏 置 的 隐 茂 单元。 这样 的 情况 对 于 学 习 
算法 来 说 可 能 是 困难 的 。 此 外 ， 许 多 浅 层 的 图 模型 把 多 个 分 离 的 模式 表 
示 在 一 条 线 上 会 出 现 问题 。GCN 采 用 一 个 样本 一 个 方向 出 ， 而 不 是 不 同 
的 方向 和 距离 来 避免 这 些 问 题 。 


原始 输入 GCN,A=0 GCN,\= 107 
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图 12.1 ”GCN 将 样本 投影 到 一 个 球 上 。 E) 原始 的 输入 数据 可 能 拥有 任意 的 范 数 。 (中 ) 和 = 
0 时 ，GCN 可 以 完美 地 将 所 有 的 非 零 样本 投影 到 球 上 。 这 里 我 们 令 s 二 1，€ =108. HERA 
使 用 的 GCN 是 基于 归 一 化 标准 差 而 不 是 L “ 范 数 ， 所 得 到 的 球 并 不 是 单位 球 。 A) 入 >0 的 正 

则 化 GCN 将 样本 投影 到 球 上 ， 但 是 并 没有 完全 地 丢弃 其 范 数 中 变化 。s 和 € 的 取 值 与 之 前 一 样 


与 直觉 相反 的 是 ， 存 在 被 称 为 sphering 的 预 处 理 操作 ， 并 且 它 不 同 于 
GCN。sphering 并 不 会 使 数据 位 于 球形 元 上 ， 而 是 将 主 成 分 重新 缩放 以 
其 有 相等 方 牵 ， 使 得 PCA 使 用 的 多 变量 正 态 分 布 具 有 球形 等 局 线 。 
spheringili fh WIR AA (whitening) 。 
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域 “ 例 如 一 个 城市 广场 有 一 半 的 区 域 处 于 建筑 物 的 阴影 之 中 ) ， 则 全 局 
对 比 度 归 一 化 将 确 你 蜡 区 域 的 完 度 与 宫 区 域 的 宫 度 之 间 存 在 大 的 委 允 。 
然而 ， 它 不 能 确保 暗 区 内 的 边缘 突出 。 


这 众生 了 局 部 对 比 度 归 一 化 Clocal contrast normalization, LCN) 。 局 
部 对 比 度 归 一 化 确保 对 比 度 在 每 个 小 窗口 上 被 归 一 化 ， 而 不 是 作为 整体 
在 图 像 上 被 归 一 化 。 关 于 局 部 对 比 度 归 一 化 和 全 局 对 比 上 度 归 一 化 的 比较 
可 以 参考 图 12.2。 








mA BRR LCN 


图 12.2 ”全 局 对 比 度 归 一 化 和 局 部 对 比 度 归 一 化 的 比较 。 直 观 上 说 ， 全 局 对 比 度 归 一 化 的 效果 
很 巧妙 。 它 使 得 所 有 图 片 的 尺度 都 差不多 ， 这 减轻 了 学 习 算法 处 理 多 个 尺度 的 负担 。 局 部 对 比 
度 归 一 化 更 多 地 改变 了 图 像 ， 丢 弃 了 所 有 相同 强度 的 区 域 。 这 使 模型 能 够 只 关注 于 边缘 。 较 好 
的 纹理 区 域 ， 如 第 二 行 的 屋子 ， 可 能 会 由 于 归 一 化 核 的 过 高 带宽 而 丢失 一 些 细节 


局 部 对 比 度 归 一 化 的 各 种 定义 都 是 可 行 的 。 在 所 有 情况 下 ， 我 们 可 以 通 
过 减 去 邻近 像 系 的 平均 值 并 际 以 邻近 像 系 的 标准 大 来 修改 每 个 像 系 。 在 
一 些 情况 下 ， 要 计算 以 当前 要 修改 的 像 双 为 中 心 的 滤 形 窗口 中 所 有 像 么 
的 平均 值 和 标准 差 (Pinto et al. , 2008) 。 在 其 他 情况 下 ， 使 用 的 则 是 
以 要 修改 的 像 系 为 中 心 的 融 斯 权重 的 加 权 平 均 和 加 权 标 准 和 过。 在 彩色 图 
AM TLR HESS BAAD AS [a] AS, TT te IK ZH OR A 
不 同 通道 的 信息 以 使 每 个 像素 归 一 化 〈Sermanet et al. , 2012) 。 


局 部 对 比 度 归 一 化 通常 可 以 通过 使 用 可 分 离世 积 (参考 第 9.8 玉 ) 来 计 
算 特 征 映 射 的 局 部 平均 信和 局 部 标准 关 ， 然 后 在 不 同 的 特征 映射 上 使 用 
未 元 系 的 减法 和 除法 。 


局 部 对 比 度 归 一 化 是 可 微分 的 操作 ， 并 且 还 可 以 作为 一 种 非 线性 作用 应 
用 于 网 络 隐藏 层 ， 以 及 应 用 于 输入 的 了 预 处 理 操 作 。 


与 全 局 对 比 度 归 一 化 一 样 ， 我 们 通 钊 需要 正则 化 局 部 对 比 度 归 一 化 来 避 
狗 出 现 除 以 零 的 情况 。 事 实 上 ， 因 为 局 部 对 比 度 归 一 化 通常 作用 于 较 小 
的 窗口 ， 所 以 正则 化 更 加 重要 。 较 小 的 窗口 更 可 能 包含 彼此 几乎 相同 的 
B> ANE E n RERA RIEZ o 


12.2.2 ”数据 集 增 强 


如 第 7.4 节 中 讲 到 的 一 样 ， 我 们 很 容易 通过 增加 训练 集 的 额外 副本 来 增 

加 训练 集 的 大 小 ， 进 而 改进 分 类 器 的 泛 化 能 力 。 这 些 额 外 副本 可 以 通过 
对 原始 图 像 进行 一 些 变化 来 生成 ， 但 是 并 不 改变 其 类 别 。 对 象 识别 这 个 
分 类 任务 特别 适合 于 这 种 形式 的 数据 集 增 强 ， 因 为 类 别 信 息 对 于 许多 变 
换 是 不 变 的 ， 而 我 们 可 以 简单 地 对 输入 应 用 诸多 几何 变换 。 如 前 所 述 ， 

分 类 露 可 以 受 共 于 随机 转换 或 者 旋转 ， 某 些 情况 下 输入 的 翻转 可 以 增强 
数据 集 。 在 专门 的 计算 机 视觉 应 用 中 ， 人 存在 很 多 更 高 级 的 用 以 增强 数据 
集 的 变换 。 这 些 方案 包括 图 像 中 颜色 的 随机 扰动 (Krizhevsky et al. , 
2012b) ， 以 及 对 输入 的 非 线性 几何 变形 (LeCun etal., 1998c) . 


12.3 ”语音 识别 


语音 识别 任务 是 将 一 段 包括 了 目 然 语言 及 音 的 声学 信号 投影 到 对 应 说 话 
人 的 词 序列 上 。 令 对 二 (x 外 ,x 外,..., x 四) 表示 语音 的 输入 向 量 〈 传 统 
做 法 以 20ms 为 一 巾 分 割 信号 〉。 许 多 语 首 识 别 的 系统 通过 特殊 的 手工 设 
计 方 法 预 处 理 输 入 信 写 ， 从 而 提取 特征 ， 但 是 菜 些 深 谋 学 习 系 统 (Jaitly 
and Hinton, 2011) 直接 从 原始 输入 中 学 习 特 征 。 令 y= 二 (yi ，y2,..4YyN 
) 表 示 目 标的 输出 序列 〈 通 第 是 一 个 词 或 者 字符 的 序列 ) 。 上 自动 语 首 识 
别 (automatic speech recognition, ASR) 任务 指 的 是 构造 一 个 函数 
făsp ， 使 得 它 能 够 在 给 定 声学 序列 和 的 情况 下 计算 最 有 可 能 的 语言 序 
Sly : 


fasn(X) = argmaxP"(y | X = X) (12.4) 
y 


其 中 P | 78:25 E46) MEX R H i y 的 真实 条 件 分 布 。 


从 20 世 纪 80 年 代 直 到 2009 一 2012 年 ， 最 先进 的 语音 识别 系统 是 隐 马 尔 可 
RÆ (hidden markov model, HMM) MAREA (gaussian 
mixture model, GMM) 的 结合 。GMM 对 声学 特征 和 音素 (phoneme) 
之 间 的 关系 建 模 (Bahl et al. ，1987) ，HMM 对 音素 序列 建 模 。GMM- 
HMM 柑 型 将 语音 信和 号 视 作 由 如 下 过 程 生成 : 首先 ， 一 个 HMM 生 成 了 一 
个 音 和 聚 的 序列 以 及 离散 的 子音 系 状 态 《〈《 比 如 每 一 个 音素 的 开始 、 中 间 、 
结尾 ) ， 然 后 GMM 把 每 一 个 离散 的 状态 转化 为 一 个 人 简短 的 声 首 信 和 号。 
尽管 直到 最 近 GMM-HMM 一 直 在 ASR 中 占据 主导 地 位 ， 语 音 识别 仍然 


是 神经 网 络 所 成 功 应 用 的 第 一 个 领域 。 从 20 世 纪 80 年 代 末 期 到 90 年 代 初 
期 ， 大 量 语 首 识别 系统 使 用 了 神经 网 络 (Bourlard and Wellekens, 
1989; Waibel et al. , 1989; Robinson and Fallside, 1991; Bengio et al. 
, 1991, 1992; Konigetal., 1996) 。 当 时 ， 基 于 神经 网 络 的 ASR 的 表 
现 和 GMM-HMM 系 统 的 表现 甜 不 多 。 比 如 说 ，Robinson and 
Fallside (1991) 在 TIMIT 数 握 集 (Garofolo et al. , 1993) (有 39 个 区 分 
WER) 上 达到 了 26%% 的 吾 率 错误 率 ， 这 个 结束 优 于 或 者 说 是 可 以 与 基 
于 HMM 的 结果 相 比 。 从 那 时 起 ，TIMIT 成 为 音素 识别 的 一 个 基准 数据 
集 ， 在 语音 识别 中 的 作用 就 和 MNIST 在 对 象 识 别 中 的 作用 差不多 。 然 
而 ， 由 于 语 首 识 列 软 件 系 统 中 复 末 的 工程 因 系 以 及 在 基于 GMM-HMM 
的 系统 中 已 经 付出 的 巨大 努力 ， 工 业界 并 没有 迫切 转向 神经 网 络 的 需 
求 。 结 东 ， 下 到 21 世 纪 00 年 代 来 期， 学术 界 和 工业 界 的 研究 者 们 更 多 的 
是 用 神经 网 络 为 GMM-HMM 系 统 学 习 一 些 额 外 的 特征 。 


之 后 ， 随 着 更 大 更 深 的 檬 型 以 及 更 大 的 数据 集 的 出 现 ， 通 过 使 用 神经 网 
络 代 谷 GMM 来 实现 将 声学 特征 转化 为 音素 〈 或 者 子音 素 状 态 ) 的 过 程 

可 以 大 大 地 提高 识别 的 精度 。 从 2009 年 开始 ， 语 音 识别 的 研究 者 们 将 一 
种 无 监督 学 习 的 深度 学 习 方 法 应 用 于 语 首 识别 。 这 种 深 破 学 习 方 法 基于 
训练 一 个 被 称 作 是 受 限 玻 尔 效 曼 机 的 无 回 概 率 模 型 ， 从 而 对 输入 数据 建 
模 。 受 限 玻 尔 北 曼 机 将 会 在 第 三 部 分 中 接 述 。 为 了 完成 语 首 识别 任务 ， 

无 监督 的 预 训练 饭 用 来 构造 一 个 深 撒 前 馈 网 络 ， 这 个 神经 网 络 每 一 层 都 
是 通过 训练 受 限 玻 尔 兹 曼 机 来 初始 化 的 。 这 些 网 络 的 输入 是 从 一 个 国定 
规格 的 输入 窗 COL RTA AU) BS Seen, Poll SR A 
XY DY A HM IMR AS WY AR EER © UINZBR SEY PZ A 2 Dk 

提高 在 TIMIT 数 据 集 上 的 识别 率 (Mohamed et al. , 2009, 2012a) ， 并 
将 音叉 级 别 的 错误 鞭 从 大 约 26%% 降 到 了 20.7% 。 关 于 这 个 模型 成 功 原 因 
的 详细 分 析 可 以 参考 Mohamed et al. (2012b) 。 对 于 基本 的 电话 识别 工 
作 流 程 的 一 个 扩展 工作 是 这 加 说 话 人 目 适 应 相关 特征 (Mohamed et al. 
，2011) 的 方法 ， 这 可 以 进一步 地 降低 错误 鞭 。 紧 接着 的 工作 则 将 结构 
从 音素 识别 〈TIMIT 所 主要 关注 的 ) 转 同 了 大 规模 词汇 语音 识别 (Dahl 
et al. , 2012) ， 这 不 仅 包 含 了 识别 音 聂 ， 还 包括 了 识别 大 规模 词汇 的 
序列 。 语 首 识 别 上 的 深度 网 络 从 最 倪 的 使 用 受 限 玻 尔 北 曼 机 进行 预 训练 
发 展 到 了 使 用 诸如 整流 线性 蛙 元 和 Dropout 这 样 的 技术 (Zeiler et al. , 

2013; Dahl et al. , 2013) 。 从 那 时 开始 ， 工 业界 的 几 个 语音 研究 组 开 
台 寻 求 与 学 术 背 的 研究 者 之 间 的 合作 。Hinton et al. (2012a) 摘 述 了 这 
些 合作 所 珊 来 的 突破 性 进展 ， 这 些 技术 现在 被 广泛 应 用 在 产品 中 ， 比 如 
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用 语音 识别 中 词 错 误 率 来 衡量 ， 在 语音 识别 性 能 上 的 这 些 突破 是 史 无 前 
PIA (KAB30% Wher) 。 在 这 之 前 的 长 达 十 年 左右 的 时 间 内 ， 尽 管 数 
据 集 的 规模 是 随时 间 增 长 的 〈( 见 Deng and Yu (2014) 的 图 2.4) ， 但 基 
于 GMM-HMM 的 系统 的 传统 技术 已 经 停 渍 不 前 了 。 这 也 导致 了 语音 识 
别 领域 快速 地 转向 深度 学 习 的 研究 。 在 大 约 两 年 的 时 间 内 ， 工 业界 大 多 
数 的 语音 识别 产品 都 包含 了 深度 神经 网 络 ， 这 种 成 功 也 激发 了 ASR 领 域 
对 深度 学 习 算 法 和 结构 的 新 一 波 研 究 良 潮 ， 并 且 影 响 人 至 今 。 


其 中 的 一 个 创新 点 是 车 积 网 络 的 应 用 (Sainath et al. , 2013) . 87: W] 
络 在 时 域 与 频 域 上 复 用 7 了 权重， 改进 了 之 地 的 仪 在 时 域 上 使 用 重复 权 值 
的 时 延 神经 网 络 。 这 种 新 的 二 维特 积 模型 并 不 是 将 输入 的 频谱 当 作 一 个 
长 的 回 量 ， 而 是 当成 一 个 图 像 ， 其 中 一 个 轴 对 应 看 时 间 ， 另 一 个 轴 对 应 


的 是 谱 分 量 的 频率 。 


完全 抛 齐 HMM 并 转 同 研究 疹 到 问 的 深度 学 习 语音 识别 系统 是 至 今 仍然 

活跃 的 另 一 个 重要 推动 。 这 个 领域 第 一 个 主要 突破 是 Graves et al 
(2013) ， 他 训练 了 一 个 深度 的 长 短期 记忆 循环 神经 网 络 〈 见 第 10.10 

) ， 使 用 了 帧 一 音 际 排列 的 MAP 推 新 ， 束 像 LeCun et al. (1998c) 以 
及 CTC 框 架 (Graves etal., 2006; Graves, 2012) 中 一 样 。 一 个 深度 循 
坏 神 经 网 络 (Graves et al. , 2013) 每 个 时 间 步 的 各 层 都 有 状态 变量 ， 

两 种 展开 图 的 方式 导致 两 种 不 同 深 慌 : 一 种 是 普通 的 根据 层 的 堆 登 衡量 
的 深度 ， 男 一 种 是 根据 时 间 展 开 衡 量 的 深 谋 。 这 个 工作 把 TIMIT 数 据 集 
上 音素 的 错误 率 记 录 降 到 了 新 低 17.7% 。 关 于 应 用 于 其 他 领域 的 深度 循 
环 神经 网 络 的 变种 可 以 参考 Pascanu et al. (2014a) ; Chung et al. 
(2014) 。 


万 一 个 病 到 问 深 度 学 习 语 音 识别 方 同 的 最 新 方法 是 ， 让 系统 和 学习 如 何 利 


用 语音 (phonetic) 层级 的 信息 “排列 ”声学 (acoustic) 层级 的 信息 
(Chorowski et al. , 2014; Luetal., 2015) . 


12.4 上 自然 语言 处 理 


自然 语言 处 理 (Cnatural language processing, NLP) 是 让 计算 机 能 够 使 
用 人 关 语 言 ， 例 如 英语 或 法 语 。 为 了 让 简单 的 程序 能 够 高 效 明确 地 解 
析 ， 计 算 机 程序 通 第 恋 取 和 及 出 特殊 化 的 语言 。 而 目 然 语 言 通 弟 是 模糊 
的 ， 并 且 可 能 不 芝 循 形式 的 摘 述 。 目 然 语言 处 理 中 的 应 用 如 机 桥 翻 译 ， 
学 习 痢 需要 读 取 一 种 人 类 语言 的 句子 ， 并 用 为 一 种 人 类 语言 有 友 出 等 同 的 
句子 。 许 多 NLP 应 用 程序 基于 语言 模型 ， 语 言 模 型 定义 了 关于 自然 语言 
中 的 字 、 字 符 或 字 节 序列 的 概率 分 布 。 


与 本 章 讨 论 的 其 他 应 用 一 样 ， 非 利通 用 的 神经 网 络 技术 可 以 成 功 地 应 用 
于 目 然 语言 处 理 。 然 而 ， 为 了 实现 早 越 的 性 能 并 扩展 到 大 型 应 用 程序 ， 
一 些 领 域 翌 定 的 策略 也 很 重要 。 为 了 构建 自然 语言 的 有 效 模 型 ， 通 市 必 
须 使 用 专门 处 理 序列 数据 的 拉 术 。 在 很 多 情况 下 ， 我 们 将 目 然 语言 视 为 
一 系列 词 ， 而 不 是 单个 字符 或 字 节 序列 。 因 为 可 能 的 词 总 数 非常 六 ， 基 
村 词 的 语言 便 型 必须 在 极 高 维度 和 黎 焉 的 离散 空间 上 操作 。 为 了 使 这 种 
Ra 


12.4.1 n-gram 


语言 模型 (language model) 定义 了 目 然 语言 中 标记 序列 的 概 认 分布 。 
根据 模型 的 设计 ， 标 记 可 以 是 词 、 字 人 符 其 至 是 字 节 。 标 记 总 是 离散 的 实 
体 。 最 早 成 功 的 语言 模型 基于 固定 长 度 序 列 的 标记 模型 ， 称 为 n-gram。 

一 个 n-gram 是 一 个 包含 n 个 标记 的 序列 。 


基于 n-gram 的 模型 定义 一 个 条 件 和 概率 给 定 前 n-1 个 标记 后 的 第 n 个 标 
记 的 条 件 概 诸 。 访 模型 使 用 这 些 条 件 分 布 的 乘积 定义 较 长 序列 的 概率 分 
布 : 





Re II P ie | Dienaar) (12.5) 
这 个 分 解 可 以 由 概 计 的 链 式 法 则 证 明 。 和 初始 序列 P(x 1 ,.….,X ,1 DIR 
布 可 以 通过 带 有 较 小 n 值 的 不 同 模型 建 模 。 


VilZkn-gram pe H Fe fe LEN, AA Aa oh Da ae fy HS ec BES 
可 能 的 n-gram 在 训练 集中 出 现 的 次 数 来 获得 。 儿 十 年 来 ， 基 于 n-gram 的 
模型 都 是 统计 语言 模型 的 核心 模块 (Jelinek and Mercer, 1980; Katz, 
1987; Chen and Goodman, 1999) . 


对 于 小 的 n 值 ， 模 型 有 特定 的 名 称 : nn 三 1 称 为 一 元 语法 (unigram) , n 
二 2 称 为 二 元 语法 (bigram) ，n 二 3 称 为 三 元 语法 Ctrigram) 。 这 些 名 
称 源 于 相应 数字 的 拉丁 前 级 和 项 脂 后 级 “-gram”， 分 别 表 示 所 写 之 物 。 


通常 我 们 同时 训练 n-gram 模型 和 n-1 gram 模 型 。 这 使 得 下 式 可 以 简单 地 
通过 查找 两 个 存储 的 概率 来 计算 。 


at: as Ad , +4) 
Je EE EET Fiat a) 


为 了 在 P 中 精确 地 再 现 推断 ， 我 们 训练 P ,1 时 必须 省 略 每 个 序列 最 后 
一 个 字符 。 


Pa | Lt—n+1,°°° ea) c= (12.6) 


举 个 例子 ， 我 们 演示 三 元 模型 如 何 计算 句子 “THE DOG RAN AWAY. 
”的 概率 。 句 子 的 第 一 个 词 不 能 通过 上 述 条 件 概 率 的 公式 计算 ， 因 为 句 
子 的 开头 没有 上 上下文。 取而代之 ， 在 句子 的 开头 我 们 必须 使 用 词 的 边缘 
概率 。 因 此 我 们 计算 P 。(THE DOG RAN )。 最 后 ， 可 以 使 用 条 件 分 布 
P(AWAY | DOG RAN ) (典型 情况 ) 来 预测 最 后 一 个 词 。 将 这 与 式 
(12.6) 放 在 一 起 ， 我 们 得 到 


P(THE DOG RAN AWAY) = P3(THE DOG RAN) P3(DOG RAN AWAY) /P>(DOG RAN) (12.7) 


n-gram 模型 最 大 似 然 的 基本 限制 是 ， 在 许多 情况 下 从 训练 集 计数 估计 得 
到 的 P, 很 可 能 为 零 ( 即 使 元 组 (x, ,1 ,...,x1) 可 能 出 现在 测试 集中 ) 。 这 
可 能 会 导致 两 种 不 同 的 灾难 性 后 果 。 当 P a 为 零 时 ， 访 比率 是 未 定义 
的 ， 因 此 模型 甚至 不 能 产生 有 意义 的 输出 。 当 P ，; 非 零 而 P ， 为 零 时 ， 
测试 样本 的 对 数 似 然 为 -%。 为 避免 这 种 灾难 性 的 后 果 ， 大 多 数 n-gram 模 
型 采用 某 种 形式 的 平滑 ” (smoothing) 。 平 滑 技术 将 概率 质量 从 观察 到 
的 元 组 转移 到 类 似 的 未 观察 到 的 元 组 。 见 Chen and Goodman (1999) 的 
综述 和 实验 对 比 。 其 中 一 种 基本 技术 基于 加 所 有 可 能 的 下 一 个 符号 值 添 
加 非 零 概 认 质量 。 这 个 方法 可 以 被 证 明 ， 计 数 参 数 具 有 均匀 或 Dirichlet 


Fc Hor AY DL PEST © Ga SSE ST EE ee BS re TPA n-gram Fic 
FAN AS Vee ae Be A, Kp ray I ee eA ER AS a 
免 去 计数 。 如 果 上 下 文 x， see X 41 的 频率 太 小 而 不 能 使 用 高 阶 模型 ， 
回 退 方法 (back-offmethods) 束 查 找 低 阶 n-gram。 更 正式 地 说 ， 它 们 通 
过 上 上 下文 x pas ;…X 11 JHU x , ERA, FEU kB PSR BY AE We AY SEY 
估计 。 


经 典 的 n-gram 模型 特别 容易 引起 维 数 灾难 。 因 为 存在 |V |” 可 能 的 n- 
gram, TMA|V| 人 退 第 很 大 。 即 使 有 大 量 训 练 数 据 和 适当 的 n0， 大 多 数 n- 
gram 也 不 会 出 现在 训练 集中 。 经 典 n-gram 模 型 的 一 种 观点 是 执行 最 近 令 
答 询 。 换 名 话说 ， 它 可 以 被 视 为 局 部 非 参 数 预 测 硕 ， 类 似 于 k- 最 近邻 。 
这 些 极 闪 局 部 预 刷 左面 临 的 统计 问题 已 经 在 第 5.11.2 贡 中 描述 过 。 语 言 
模型 的 问题 甚至 比 普通 模型 更 严重 ， 因 为 任何 两 个 不 同 的 词 在 one-hot 回 
量 空间 中 的 距离 彼此 相同 。 因 此 ， 难 以 大 量 利用 来 目 任 意 “ 邻 后 ”的 信息 
只 有 重复 相同 上 下 文 的 训练 样本 对 局 部 泛 化 有 用 。 为 了 克服 这 些 问 
题 ， 语 言 模型 必须 能 够 在 一 个 词 和 其 他 语义 相似 的 词 之 间 共 享 知 识 。 


为 了 提高 n-gram 模 型 的 统计 效率 ， 基 于 类 的 语言 模型 (class-based 
language model) (Brown etal. , 1992; Ney and Kneser, 1993; Niesler 
et al. , 1998) 引入 词类 别 的 概念 ， 然 后 属于 同一 类 别 的 词 共 孚 词 之 间 
的 统计 强大 。 这 个 想法 使 用 了 有 聚 类 算法 ， 基 于 它们 与 其 他 词 同 时 出 现 的 
频率 ， 将 该 组 词 分 成 集群 或 类 。 随 后 ， 和 借 型 可 以 在 条 件 坚 杠 的 右 侧 使 用 
词 关 ID 而 不 是 单个 词 ID。 混 合 〈 或 回 退 ) 词 模 型 和 类 模型 的 复合 模型 也 
是 可 能 的 。 尽 管 词 闫 提供 了 在 序列 之 间 泛 化 的 方式 ， 但 其 中 一 些 词 被 相 
辣 关 的 另 一 个 奉 换 ， 导 致 该 表示 丢失 了 很 多 信息 。 


12.4.2 ”神经 语言 模型 


神经 语言 模型 (neural language model, NLM) 是 一 类 用 来 克服 维 数 灾 
难 的 语言 模型 ， 它 使 用 词 的 分 布 式 表示 对 目 然 语言 序列 建 模 (Bengio et 
al. , 2001b) 。 不 同 于 基于 类 的 n-gram 模型 ， 神 经 语言 模型 在 能 够 识别 
两 个 相似 的 词 ， 并 且 不 背 失 将 每 个 词 编码 为 彼此 不 同 的 能 力 。 神 经 语言 
模型 共享 一 个 词 〈 及 其 上 和 下文) 和 其 他 类 似 词 和 上 下 文 之 间 ) 的 统计 
强度 。 模 型 为 每 个 词 学 习 的 分 布 式 表示 ， 人 多 许 模型 处 理 具 有 类 似 共 同 特 
征 的 词 来 实现 这 种 共享 。 例 如 ， 如 果 词 dog 和 词 cat 映射 到 具有 许多 属 





性 的 表示 ， 则 包含 词 cat 的 句子 可 以 告知 模型 对 包含 词 dog 的 句子 做 出 
预 训 ， 及 之 亦 然 。 因 为 这 样 的 属性 很 多 ， 所 以 存在 许多 泛 化 的 方式 ， 可 
以 将 信息 从 每 个 训练 语句 传递 到 指数 数量 的 语义 相关 语句 。 维 数 灾难 十 
要 模型 沁 化 到 指数 多 的 句子 (指数 相对 句子 长 度 而 言 )。 访 模型 通过 将 
每 个 训练 句子 与 指数 数量 的 类 似 句 子 相关 联 元 服 这 个 问题 。 


我 们 有 时 将 这 些 词 表示 称 为 词 能 入 (word embedding) 。 在 这 个 解释 
下 ， 我 们 将 原始 从 号 视 为 维度 等 于 词 表 大 小 的 空间 中 的 点 。 词 表示 将 这 

点 租 入 到 较 低 维 的 特征 空间 中 。 在 原始 空间 中 ， 每 个 词 由 一 个 one-hot 
回 量 表示 ， 因 此 每 对 词 彼此 之 间 的 欧 氏 距离 都 是 V2 。 在 众 入 空间 中 ， 
经 常 出 现在 类 似 上 下 文 (或 共 圣 由 模型 学 习 的 一 些 “ 特 征 ” 的 任何 词 对 ) 
中 的 词 役 此 接近 。 这 通 音 导致 共有 相似 含义 的 词 变 得 邻近 。 图 12.3 放 大 
了 学 到 的 词 租 入 空间 的 特定 区 域 ， 我 们 可 以 看 到 语义 上 相似 的 词 如 何 映 
味 到 彼此 接近 的 表示 。 
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图 12.3 MIANA ab Ee RS A te PRAY Ene CBahdanau etal., 2015) 。 此 图 在 语 
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捕获 词 之 间 多 种 相似 性 


其 他 领域 的 神经 网 络 也 可 以 定义 租 入 。 例 如 ， 若 积 网 络 的 隐 蕊 层 近 

供 “ 图 像 授 入 ”。 因 为 目 然 语言 最 伟人 不 在 实 值 同 量 空间 上 ， 所 以 NLP 从 业 
者 通常 对 仍 入 的 这 个 想法 更 感 兴趣 。 隐 茂 层 在 表示 数据 的 方式 上 提供 了 
更 质变 的 戏剧 性 变化 。 


使 用 分 布 式 表示 来 改进 自然 语言 处 理 模型 的 基本 思想 不 必 局 限于 神经 网 
络 。 它 还 可 以 用 于 图 模型 ， 其 中 分 布 式 表示 是 多 个 湾 变 量 的 形式 (Mnih 








and Hinton, 2007) . 

12.4.3 ”高 维 输出 

在 许多 上 自然 语言 应 用 中 ， 通 和 希望 我 们 的 模型 产生 词 〈 而 不 是 字符 ) 作 
为 输出 的 基本 单位 。 对 于 大 词汇 表 ， 由 于 词汇 量 很 大 ， 在 词 的 选择 上 表 
示 输 出 分 布 的 计算 成 本 可 能 非常 高 。 在 许多 应 用 中 ，\ 包含 数 十 万 
词 。 表 示 这 种 分 布 的 朴 系 方 法 是 应 用 一 个 仿 射 变换 ， 将 隐藏 表示 转换 到 
输出 空间 ， 然 后 应 用 softmax 函 数 。 假 设 我 们 的 词汇 表 \W 大 小 为 |V| 。 

因为 其 输出 维 数 为 lV| ， 朱 述 该 仿 射 变换 线性 分 量 的 权重 矩阵 非常 大 。 

这 造成 了 表示 该 矩阵 的 高 存储 成 本 ， 以 及 与 之 相 乘 的 高 计算 成 本 。 因 为 
softmax 要 在 所 有 |V| 输出 之 间 归 一 化 ， 所 以 在 训练 时 以 及 测试 时 执行 全 
矩阵 乘法 是 必要 的 一 一 我 们 不 能 仅 计算 与 正确 输出 的 权重 向 量 的 点 积 。 

因此 ， 和 输出 层 的 高 计算 成 本 在 训练 期 间 《〈 计 算 似 然 性 及 其 梯度 ) 和 测试 
期 间 (计算 所 有 或 所 选 词 的 概率 ) 都 有 出 现 。 对 于 专门 的 损失 函数 ， 可 
以 有 效 地 计算 梯度 (Vincent et al. , 2015) ， 但 是 应 用 于 传统 softmax 输 
出 层 的 标准 交 文 燃 损 失 时 会 出 现 许多 困难 。 


假设 h 是 用 于 预测 输出 概率 外 的 顶部 隐藏 层 。 如 果 我 们 使 用 学 到 的 权重 
W 和 学 到 的 偏 置 b 参数 化 从 h 到 条 的 变换 ， 则 仿 射 softmax 输 出 层 执行 
以 下 计算 : 


a; = bi + ` Wahi Vi € tls TE , |V|} (12.8) 








Ji = SUT (12.9) 
meh 包含 ny Sc, MEW ESA EO Vna) . fen, AMF 
和 |V| 数 十 万 的 情况 下 ， 这 个 操作 占据 了 神经 语言 模型 的 大 多 数 计 算 。 


12.4.3.1 使 用 短 列表 


第 一 个 神经 语言 模型 (Bengio et al. ，2001b，2003) 通过 将 词汇 量 限制 
为 10 000 或 20” 000 来 减轻 大 词汇 表 上 softmax 的 高 成 本 。Schwenk and 
Gauvain (2002) 和 Schwenk (2007) 在 这 种 方法 的 基础 上 建立 新 的 方 


式 ， 将 词汇 表 YV 分 为 最 常见 词汇 〈 由 神经 网 络 处 理 ) 的 短 列表 
(shortlist) J, 和 较 稀有 词汇 的 尾 列表 人 = YA\L 由 n-gram 模型 处 
理 ) 。 为 了 组 合 这 两 个 预测 ， 神 经 网 络 还 必须 预测 在 上 下 文 C 之 后 出 现 
的 词 位 于 尾 列表 的 概率 。 我 们 可 以 请 加 额外 的 sigmoid 输 出 单元 估计 
PaeT|C) 实现 这 个 预测 。 额 外 输出 则 可 以 用 来 估计 V 中 所 有 词 
的 概率 分 布 ， 如 下 : 


Py =t|C)=lieP(y =i |C e LU- Pw eT | C)) 
+ lietP(y =i|CiieT)PGieET|C) (12.10) 


Hee P(y=i|C,ieL) 由 神经 语言 模型 提供 P(y =i |C,i €T) 
由 n-gram 模型 提供 。 稍 作 修 改 ， 这 种 方法 也 可 以 在 神经 语言 模型 模型 的 
softmax 层 中 使 用 和 额外 的 输出 值 ， 而 不 是 蛙 独 的 sigmoid 蛙 元 。 


筷 列 表 方 法 的 一 个 明显 缺点 是 ， 神 经 语言 模型 的 潜在 沁 化 优势 仅 限 于 最 
苗 用 的 词 ， 这 大 概 是 最 没 用 的 。 这 个 缺 操 引 肥 了 处 理 融 维 输出 营 代 方法 
的 探索 ， 如 下 所 述 。 


12.4.3.2 分 屋 Softmax 


减少 大 词汇 表 YW 上 融 维 输出 层 计 算 人 负担 的 经 典 方法 (Goodman， 

2001) 是 分 层 地 分 解构 率 。|V| 因子 可 以 降低 到 log|V| 一 样 低 ， 而 无 须 
执行 与 |V| 成 比例 数量 (并 且 也 与 隐藏 单元 数量 n hn 成 比例 ) 的 计算 。 

Bengio (2002) 和 Morin and Bengio (2005) 将 这 种 因子 分 解 方 法 引入 
神经 语言 模型 中 。 


我 们 可 以 认为 这 种 层次 结构 是 先 建立 词 的 类 别 ， 然 后 是 词类 别 的 类 别 ， 
然后 是 词类 别 的 类 别 的 类 别 等 。 这 些 舱 套 类 别 构成 一 棵 树 ， 其 叶子 为 
词 。 在 平衡 树 中 ， 树 的 深度 为 log|V| 。 选 择 一 个 词 的 概率 是 由 路 径 〈 从 
树 根 到 包含 该 词 叶子 的 路 径 ) 上 的 每 个 下 点 通 同 衣 词 分 文 概率 的 乘积 给 
出 。 图 12.4 是 一 个 人 简 蛙 的 例子 。Mnih and Hinton (2009) 也 摘 述 了 使 用 
多 个 路 径 来 识别 单个 词 的 方法 ， 以 便 更 好 地 建 模 具有 多 个 含义 的 词 。 计 
算 词 的 概率 则 涉及 在 导 问 该 词 所 有 路 径 上 的 求 和 。 
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图 12.4 ”词类 别 简单 层次 结构 的 示意 图 ， 其 中 8 个 词 w 0 ,…w 7 组 织 成 三 级 层次 结构 。 树 的 叶子 
表示 实际 特定 的 词 。 内 部 节点 表示 词 的 组 别 。 任 何 节点 都 可 以 通过 二 值 决 策 序列 0 二 左 ，1= 
A) 索引 ， 从 根 到 达 节点 。 超 类 0) 包含 类 (0,0) 和 (0,1) ， 其 中 分 别 包含 词 {w 0 ，w 1 } 和 


{w 2 ，w 3 } 的 集合 ， 类 似 地 超 类 (1) 包含 类 1,0) 和 1,1) ， 分 别 包 含 词 {w 4 ，w 5 } 和 {w 
6，W7}。 如 果树 充分 平衡 ， 则 最 大 深度 二 值 决策 的 数量 ) 与 词 数 |V| 的 对 数 同 阶 ， 从 SYV 
词 中 选 一 个 词 只 需 执行 O(log |V|) 次 操作 (从 根 开始 的 路 径 上 的 每 个 节点 一 次 操作 ) o FER 
示例 中 ， 我 们 乘 三 tithe ETP Sly ZS, KS URES MR my HEA EBERT A 
7 BX AG A ER RA TR Sbi Cy) NEN Ly ES RIT ER Ai ETT HE 
的 概率 可 以 通过 条 件 概率 的 链 式 法 则 分 解 为 条 件 概 率 的 乘积 ， 其 中 每 个 节 点 由 这 些 位 的 前 级 索 
引 。 例 如 ， 节 点 (1,0〉 对 应 于 前 级 (bg (w4) 二 1,b 1 (w4) 二 0) ， 并 且 w4 的 概率 可 以 如 下 分 


解 : 


为 了 预测 树 的 每 个 节 扣 所 知 的 条 件 概率 ， 我 们 通 征 在 树 的 每 个 市 点 处 使 
用 轴 辑 回归 模型 ， 并 且 为 所 有 这 些 模型 提供 与 输入 相同 的 上 下 文 C。 
为 正确 的 输出 编 色 在 训练 集中 ， 我 们 可 以 使 用 监督 学 习 训 练 效 辑 回 归 模 
我 们 通 第 使 用 标准 交叉 燃 损 失 ， 对 应 于 最 大 化 正确 判断 序列 的 对 数 


因为 可 以 高 效 地 计算 输出 对 数 似 然 〈 低 至 log|V| 而 不 是 |V| ) ， 所 以 也 
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神经 语言 模型 中 总 计算 的 一 部 分 。 例 如 ， 假 设 有 ] 个 全 连接 的 宽度 为 n h 
HT Rt Sn p 是 识别 一 个 词 所 需 比 特 数 的 加 权 平 均 信 ， 其 加 权 由 这 
些 词 的 频率 给 出 。 在 这 个 例子 中 ， 计 算 隐 蕊 激活 所 需 的 操作 数 增 长 为 

O(In?) ) 而 输出 计算 增长 为 O(n nn ) REN p <ln )， 》 我 们 可 以 通过 收 
Hän p 比 收缩 ny 减少 更 多 的 计算 量 。 事 实 上 ，ny 通常 很 小 。 因 为 词汇 表 
的 大 小 很 少 超过 一 百 万 ， 而 log。(105) + 20 ， 所 以 可 以 将 ny 减 小 到 大 约 
20， 但 n p WEKEL, KANO ”或 更 大 。 我 们 可 以 定义 深度 为 2 和 分 
文 因子 为 VIT 的 树 ， 而 不 用 仔细 优化 分 文 因子 为 2 的 树 。 这 样 的 树 对 应 
于 简单 定义 一 组 互 斥 的 词类 。 基 于 深度 为 2 的 树 的 简单 方法 可 以 获得 层 
BKM A BaD HITET at AE 


Ply = ma) = Pip -一 1, by = (0 bs = 1) (12.11) 
= P(bo = 1)P(bi = 0 | bo = 1)P(b2 = 0 | bo = 1, bi = 0) (12.12) 


一 个 仍然 有 点 开 放 的 问题 是 如 何 最 好 地 定义 这 些 词 类 ， 或 者 如 何 定义 一 
般 的 词 层次 结构 。 早 期 工作 使 用 现 有 的 层次 结构 (Morin and Bengio, 
2005) ， 但 也 可 以 理想 地 与 神经 语言 模型 联合 学 习 层 次 结构 。 学 习 层 次 
结构 很 困难 。 对 数 似 然 的 精确 优化 似乎 难以 解决 ， 因 为 词 层次 的 选择 是 
离散 的 ， 不 适 于 基于 李 度 的 优化 。 然 而 ， 我 们 可 以 使 用 离散 优化 来 近似 
地 了 最 优化 词 闫 的 分 割 。 


分 层 softmax 的 一 个 重要 优 点 是 ， 它 在 训练 期 间 和 测试 期 间 《“ 如 条 在 名 
试 时 我 们 想 计算 特定 词 的 概率 〉 痢 市 来 了 计算 上 的 好 处 。 


当然 即使 使 用 分 层 softmax， 计 算 所 有 |V| 个 词 概率 的 成 本 仍 是 很 高 的 。 
Fy 7S BE BRE @ FE a EE POC HEE AY EH Ta]. ANSI GE, PAG 
构 不 能 为 这 个 问题 捉 供 高 效 精确 的 解决 方案 。 
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样 的 方法 ) ， 我 们 将 在 下 文 描述 。 这 可 能 是 因为 词类 选择 得 不 好 。 


12.4.3.3 ”重要 采样 


加 速 神经 语言 模型 训练 的 一 种 方式 是 ， 避 倪 明 确 地 计算 所 有 未 出 现在 下 
一 位 置 的 词 对 梯度 的 页 献 。 每 个 不 正确 的 词 在 此 模型 下 上 其 有 低 概 京 。 榴 
举 所 有 这 些 词 的 计算 成 本 可 能 会 很 局 。 相 反 ， 我 们 可 以 仅 采 样 词 的 子 
集 。 使 用 式 12.8) 中 引入 的 符号 ， 梯度 可 以 写成 如 下 形式 : 


Olog Pl(y|C) Ologsoftmaxy(a) 


50 70 (13.13) 
o ety 
50 log > ai (12,14) 
o a; 
= PTAK — log 2. g) (12.15) 
Oay i Oa; 


其 中 a 是 presoftmax 油 活 〈 或 得 分 ) 同 量 ， 每 个 词 对 应 一 个 元 素 。 第 一 
项 是 正 相 (positive phase) 项 ， 推 动 a , 向 上 ; 而 第 二 项 是 负 相 
(negative phase) 项 ， 对 于 所 有 i 以 权重 P(i | C) 推 动 a ; IIR. HFA 
项 是 期 望 值 ， 我 们 可 以 通过 壹 符 卡 罗 采 样 估计 。 然 而 ， 这 将 需要 从 模型 
本 里 采样。 从 模型 中 采样 需要 对 词汇 表 中 所 有 的 i 计 算 P(i | C)， 这 正 古 
我 们 试图 避免 的 。 


我 们 可 以 从 另 一 个 分 布 中 采样 ， 而 不 是 从 模型 中 采样 ， 这 个 分 布 称 为 提 
议 分 布 (proposal distribution) (Wq) ， 并 通过 适当 的 权 重 校正 从 销 
误 分 布 采 样 引入 的 偏差 (Bengio and  Sénécal, 2003; Bengio and 
Sénécal, 2008) 。 这 和 十 一 种 称 为 重要 采样 (Importance Sampling) HY 
通用 技术 的 应 用 ， 我 们 将 在 第 12.4.3.3 贡 中 更 详细 地 摘 述 。 不 等 的 是 ， 
即使 精确 重要 采样 也 不 一 定 有 效 ， 因 为 我 们 需要 计算 权重 p ; /q ; ， 其 中 
的 p ; =PG| CO) 只 能 在 计算 所 有 得 分 a ; 后 才能 计算 。 这 个 应 用 采取 的 解 
决 方 寨 称 为 有 但 重要 采样 ， 有 其 中 重要 性 权重 和 梓 归 一 化 加 和 为 1。 当 对 负 
词 n; 进行 采样 时 ， 相 关联 的 梯度 被 加 权 为 


Pn; Ge 
N 
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这 些 权 重用 于 对 来 目 q 的 m 个 负 样 本 给 出 适当 的 重要 性 ， 以 形成 负 相 舍 
TEXTER BEEN DORK 


(12.17) 


Wi = 


[V] m 
Oa; l Oln 
Pii 一 i - La 
2 OP ag =” o0 ( 8) 





一 元 语法 或 二 元 语法 分 布 与 提议 分 布 q 工 作 得 一 样 好 。 从 数据 估计 这 种 
分 布 的 参数 是 很 容易 。 在 估计 参数 之 后 ， 也 可 以 非 稼 局 效 地 从 这 样 的 分 
ADA o 


重要 采样 (Importance Sampling) 不 仅 可 以 加 速 具 有 较 大 softmax 输 出 的 
模型 。 更 一 般 地 ， 它 可 以 加 速 具有 大 稀世 输 出 层 的 训练 ， 其 中 输出 是 黎 
下 回 量 而 不 是 n 选 1。 其 中 一 个 例子 是 词 袋 (bag of words) 。 词 袋 具 有 
Mos v ， 其 中 v ; 表示 词汇 表 中 的 词 i 存 不 存在 文档 中 。 或 者 ，v ; 可 
以 指示 词 ij 出 现 的 砍 数 。 由 于 各 种 原因 ， 训 练 产 生 这 种 稀 蕊 癌 量 的 机 和 塔 
学 习 檬 型 的 成 本 可 能 很 品 。 在 学 习 的 早期 ， 模 型 可 能 不 会 真 的 使 输出 真 
正 稀 玖 。 此 外 ， 将 输出 的 每 个 元 系 与 目标 的 每 个 元 系 进 行 比较 ， 可 能 是 
拉 述 训练 的 损失 函数 最 目 然 的 方式 。 这 意味 大 黎 玩 输 出 并 不 一 定 能 向 来 
计算 上 的 好 处 ， 因 为 模型 可 以 选择 使 大 多 数 输出 非 零 ， 并 且 所 有 这 些 非 
零 值 需要 与 相应 的 训练 目标 进行 比较 〈 即 使 训练 目标 是 零 ) 。Dauphin 
et al. (2011) 证 明 可 以 使 用 重要 采样 加速 这 种 模型 。 局 效 算 法 最 小 
化 “ 正 词 ”( 在 目标 中 非 零 的 那些 词 ， 和 相等 数量 的 “人 负 词 ”的 重 构 损失 。 
负 词 是 被 随机 选取 的 ， 如 使 用 局 发 式 采 样 更 可 能 被 误 解 的 词 。 访 司 及 却 
过 采样 引入 的 伺 甜 则 可 以 使 用 重要 性 权重 校正 。 


在 所 有 这 些 情况 下 ， 输 出 层 株 上 度 估 计 的 计算 复 森 度 倍 减少 为 与 匀 样 本 数 
量 成 比例 ， 而 不 是 与 输出 同 量 的 大 小 成 比例 。 


12.4.3.4 ”噪声 对 比 估 计 和 排名 损失 
为 减少 训练 大 词汇 表 的 神经 语言 模型 的 计算 成 本 ， 研 究 者 也 提出 了 其 他 


基于 采样 的 方法 。 早 期 的 例子 是 Collobert and Weston (2008a) 提出 的 
排名 损失 ， 将 神经 语言 模型 每 个 词 的 输出 视 为 一 个 得 分 ， 并 试图 使 正确 


词 的 得 分 ay 比 其 他 词 ai 排名 更 高 。 提 出 的 排名 损失 则 是 


be X max(0, 1 一 ay + äi) (12.19) 


MRRP a y REI EN Fata, CHEAT 1) , MRM 
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很 多 应 用 中 是 有 用 的 ， 包 括 语 音 识 别 和 文本 生成 《包括 诺 如 翻 详 的 条 件 
文本 生成 任务 ) 。 


最 近 用 于 神经 语言 模型 的 训练 目标 是 噪声 对 比 估 计 ， 将 在 第 18.6 节 中 介 
绍 。 这 种 方法 已 成 功 应 用 于 神经 语言 模型 (Mnih and Teh, 2012; Mnih 
and Kavukcuoglu, 2013) . 


12.4.4 结合 mn-gram 和 神经 语言 模型 


n-gram 模型 相对 神经 网 络 的 主要 优点 是 n-gram 模型 具有 更 局 的 模型 容量 
(通过 存储 非常 多 的 元 组 的 频 鞭 ) ， 并 且 处 理 样 本 只 需 非常 少 的 计算 量 
(通过 查找 只 [匹配 当前 上 下 文 的 儿 个 元 组 )。 如 果 我 们 使 用 哈欠 表 或 树 
来 访问 计数 ， 那 么 用 于 n-gram 的 计算 量 几乎 与 容量 无 天 。 相 比 之 下 ,将 
神经 网 络 的 参数 数目 加 倍 通 第 也 大 致 加 倍 计算 时 间 。 当 然 ， 避 免 每 次 计 
算 时 使 用 所 有 参数 的 模型 是 一 个 例外 。 般 入 层 每 次 只 索引 单个 种 入 ， 所 
以 我 们 可 以 增加 词汇 量 ， 而 不 会 增加 每 个 样本 的 计算 时 间 。 一 些 其 他 模 
型 ， 例 如 平 铺 卷 积 网 络 ， 可 以 在 减少 参数 共 主 程度 的 同时 添加 参数 以 保 
持 相 同 的 计算 量 。 然 和 而， 基于 和 窍 阵 乘 法 的 典型 神经 网 络 层 需要 与 参数 数 
量 成 比例 的 计算 量 。 


因此 ， 增 加 容量 的 一 种 简单 方法 是 将 两 种 方法 结合 ， 由 神经 语言 模型 和 
n-gram 语 言 模型 组 成 集成 (Bengio etal., 2001b, 2003) 。 


对 于 任何 集成 ， 如 果 集 成 成 员 产 生 独 立 的 错误 ， 这 种 技术 可 以 减少 测试 
误差 。 集 成 学 习 领 域 提 供 了 许多 方法 来 组 合集 成 成 员 的 预测 ， 包 括 统一 
加 权 和 在 验证 集 上 选择 权重 。Mikolov et al. (2011a) 扩展 了 集成 ， 不 
是 仪 包括 两 个 模型 ， 而 是 包括 大 量 模型 。 我 们 也 可 以 将 神经 网 络 与 最 大 
Ws FY BO SEERA IZ CMikolov et al. , 2011b) 。 该 方法 可 以 被 视 为 
训练 有 具有 一 组 额外 输入 的 神经 网 络 ， 额 外 输入 直接 连接 到 输出 并 且 不 连 


接 到 模型 的 任何 其 他 部 分 。 额 外 输入 是 输入 上 下 文中 特定 n-gram 古 合 存 
FEIN SEAN as» PREC HEA ee ce JE a re ELSE i PLY o 


模型 容量 的 增加 是 巨大 的 架构 的 新 部 分 包含 珊 达 | SV | ”个 参数 ) ， 
但 是 处 理 输入 所 十 的 额外 计算 量 十 很 小 的 (因为 额外 输入 非常 稀 殉 〉。 


12.4.5 ”神经 机 器 翻译 


机 人 屁 翻 译 以 一 种 目 然 语言 证 取 人 句子 并 产生 等 同 食 义 的 男 一 种 语言 的 句 
子 。 机 融 翻 译 系统 通常 涉及 许多 组 件 。 在 局 层次 ， 一 个 组 件 通 党 会 所 出 
许多 候选 翻 诺 。 由 于 语言 之 间 的 至 异 ， 这 些 翻 详 中 的 许多 翻 详 是 不 符合 
语法 的 。 例 如 ， 许 多 语言 在 名 词 后 放置 形容 词 ， 因 此 直接 翻译 成 瑞 语 
上 时， 它们 会 产生 诸如 “apple red” 的 短语 。 提 议 机 制 提出 建议 翻译 的 许多 
变 体 ， 理 想 情 况 下 应 包括 “red apple”。 翻 译 系统 的 第 二 个 组 成 部 分 〈( 语 
言 模型 评估 提议 的 翻译 ， 并 可 以 评估 “red apple” 比 “apple red” Eig. 


最 早 的 机 器 翻译 神经 网 络 探索 中 已 经 纳入 了 编码 磺 和 解码 堪 的 想法 

(Allen 1987; Chris-man 1991; Forcada and Neco 1997) ， 而 翻译 中 神 
228 PX] 25 HY SS RUA os PH es Ea HZ TB Se A Ft RE R 
纺 的 语言 模型 (Schwenk et al. , 2006; Schwenk, 2010) . ZB, KE 
数 机 器 翻译 系统 在 该 组 件 使 用 n-gram 模 型 。 机 器 翻译 中 基于 n-gram 的 模 
型 不 仪 包括 传统 的 回 退 n-gram 模型 (Jelinek and Mercer, 1980; Katz, 
1987; Chen and Goodman, 1999) ， 而 且 包 括 最 大 燃 语 言 模型 

(maximum entropy language models) (Berger et al. , 1996) ， 其 中 给 
定 上 下 文中 第 见 的 词 ，affine-softmax 层 预测 下 一 个 词 。 


传统 语言 模型 仅仅 报告 自然 语言 句子 的 概率 。 因 为 机 器 翻译 涉及 给 定 输 
入 句子 产生 输出 句子 ， 所 以 将 自然 语言 模型 扩展 为 条 件 的 是 有 意义 的 。 
如 第 6.2.1.1 节 所 述 ， 可 以 直接 地 扩展 一 个 模型 ， 访 模型 定义 某 些 变量 的 
边缘 分 布 ， 以 便 在 给 定 上 下 文 C〈C 可 以 是 单个 变量 或 变量 列表 ) 的 情 
况 下 定义 该 变量 的 条 件 分 布 。Devlin et al. (2014) 在 一 些 统计 机 器 翻 
译 的 基准 中 击败 了 最 先进 的 技术 ， 他 给 定 源 语言 中 的 短语 s o S54. 
后 使 用 MLP 对 目标 语言 的 短语 ti ，t, .ty 进行 评分 。 这 个 MLP 估 计 P(t 
1，t5， tk |s1，sv sk)。 这 个 MLP 的 估计 蔡 代 了 条 件 n-gram 模 型 
提供 的 估计 。 


FET MLP TYE HY RS Ae Fa EK FO EKE. OA SRE N 
R RIIE ES ee ATERA KEM KE. RNN RR XA RE 
力 。 第 10.2.4 节 描述 了 给 定 某 些 输入 后 ， 关 于 序列 条 件 分 布 RNN 的 几 种 
构造 方法 ， 并 且 第 10.4 节 摘 述 了 当 输 入 是 序列 时 如 何 实现 这 种 条 件 分 
布 。 在 所 有 情况 下 ， 一 个 檬 型 首先 读 取 输入 序列 并 产生 概括 输入 序列 的 
数据 结构 。 我 们 称 这 个 概括 为 "上 下 文 *7C。 上 和 下文 C 可 以 是 同 量 列表 ， 
或 者 癌 量 或 张 量 。 访 取 输 入 以 产生 C 的 模型 可 以 是 RNN (Cho et al. , 
2014b; Sutskever et al. , 2014; Jean et al. , 2014) 或 卷 积 网 络 
(Kalchbrenner and Blunsom, 2013) 。 男 一 个 模型 (通常 是 RNN) , Wl 
谈 取 上 下 文 C 并 且 生 成 目标 语言 的 句子 。 在 图 12.5 中 展示 了 这 种 用 于 机 
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中 间 的 语义 表示 





编码 器 


着 对 象 ( 法 语句 子 或 图 像 ) 





图 12.5 ”编码 此 -解码 器 染 构 在 下 观 表示 例如 词 友 列 或 图 像 》 和 语义 表示 之 间 来 回 映 冉 。 使 用 
来 目 一 种 模 态 数据 的 编码 帮 输出 (例如 从 法 语句 子 到 捕获 句子 售 义 的 隐 蕊 表 示 的 编码 占 映 册 ) 
作为 用 于 力 一 模 态 的 解码 右 输 入 〔 如 解码 右 将 捕获 句子 含义 的 隐 蕊 表示 映 尉 到 身 语 )， 我 们 可 
以 训练 将 一 种 模 态 转换 到 为 一 种 模 态 的 系统 。 这 个 想法 已 经 成 功 应 用 于 很 多 领域 ， 不 仅仅 是 机 
名 翻 详 ， 还 包括 为 图 像 生 成 标题 


为 生成 以 源 句 为 条 件 的 整 句 ， 模 型 必须 具有 表示 整个 源 句 的 方式 。 早 期 








模型 只 能 表示 单个 词 或 短语 。 从 表示 学 习 的 观点 来 看 ， 有 具有 相同 含义 的 
人 句子 具有 次 似 表示 是 有 用 的 ， 无 论 它 们 是 以 源 语 言 偿 是 以 目标 语言 书 
号。 研究 者 站 先 使 用 着 积 和 RNN 的 组 合 探索 该 策略 (Kalchbrenner and 
Blunsom, 2013) 。 后 来 的 工作 介绍 了 使 用 RNN 对 所 提议 的 翻译 进行 打 
4y (Cho et al. , 2014b) 或 生成 翻译 句子 (Sutskever et al. , 2014) 。 
Jean et al. (2014) 将 这 些 模型 扩展 到 更 大 的 词汇 表 。 


12.4.5.1 ”使 用 注意 力 机 制 并 对 痢 数 据 厂 段 


使 用 国定 大 小 的 表示 概括 非常 长 的 句子 (例如 60 个 词 ， 的 所 有 语义 细 市 
是 非常 困难 的 。 这 需要 使 用 足 人 够 大 的 RNN， 并 用 用 是 跪 长 的 时 间 训 纤 得 
很 好 才能 实现 ， 如 Cho etal. (2014b) 和 Sutskever et al. (2014) 所 表明 
的 。 然 而 ， 更 高 效 的 方法 是 先 谈 取 整 个 句子 或 段 洲 〈 以 获得 正在 表达 的 
上 和 下文 和 焦点 ) ， 然 后 一 次 翻译 一 个 词 ， 每 次 聚焦 于 输入 句子 的 不 同 部 
分 来 收集 产生 下 一 个 输出 词 所 需 的 语义 细节 。 这 正 是 Bahdanau et al. 
(2015) 第 一 次 引入 的 想法 。 图 12.6 中 展示 了 注意 力 机 制 ， 其 中 每 个 时 
同步 关注 输入 序列 的 特定 部 分 。 


) i 


图 12.6 ”由 Bahdanau etal. (2015) 引入 的 现代 注意 力 机 制 ， 本 质 上 是 加 权 平 均 。 注 意 力 机 制 对 
具有 权重 a (9 的 特征 向 量 hO 进行 加 权 平 均 形成 上 下 文 向 量 c 。 在 一 些 应 用 中 ， 特 征 向 量 h 是 


经 网 络 的 隐藏 单元 ， 但 它们 也 可 以 是 模型 的 原始 输入 。 权 重 a ( 由 模型 本 身 产 生 。 它 们 通常 是 
区 间 [0，1] 中 的 值 ， 并 且 站 在 仅仅 集中 在 单个 hO 周围 ， 使 得 加 权 平 均 精确 地 读 取 接 近 一 个 
特定 时 间 步 的 特征 向 量 。 权 重 a tb 通常 由 模型 另 一 部 分 发 出 的 相关 性 得 分 应 用 softmax 函 数 后 产 
生 。 注 意 力 机 制 在 计算 上 需要 比 直 接 索 引 期 望 的 h (付出 更 高 的 代价 ， 但 直接 索引 不 能 使 用 梯 
度 下 降 训练 。 基 于 加 权 平 均 的 注意 力 机 制 是 平滑 、 可 微 的 近似 ， 可 以 使 用 现 有 优化 算法 训练 


我 们 可 以 认为 基于 注意 力 机 制 的 系统 有 三 个 组 件 : 


。 斌 取 带 读 取 原始 数据 (例如 源 语句 中 的 源 词 ， 并 将 其 转换 为 分 布 式 
表示 ， 其 中 一 个 特征 问 量 与 每 个 词 的 位 置 相 天 联 。 

o 存储 融 存 储 读 取 带 输出 的 特征 同 量 列表 。 这 可 以 被 理解 为 包 人 台 事 实 
序列 的 存储 ， 而 之 后 不 必 以 相同 的 顺序 从 中 检索 ， 也 不 必 访 问 全 
部 。 

。 最 后 一 个 程序 利用 存储 桌 的 内 容 顺序 地 执行 任务 ， 每 个 时 间 步 肾 焦 
TENTARA (或 几 个 ， 其 有 不 同 权重 〉。 


第 三 组 件 可 以 生成 翻 详 语 句 。 


当 用 一 种 语言 书 与 的 句子 中 的 词 与 另 一 种 语言 的 翻译 语句 中 的 相应 词 对 
齐 时 ， 可 以 使 对 应 的 词 租 入 相关 联 。 早 期 的 工作 表明 ， 我 们 可 以 学 习 将 
一 种 语言 中 的 词 租 入 与 男 一 种 语言 中 的 词 租 入 相关 联 的 翻译 盾 阵 
(Kogisky et al. , 2014) ， 与 传统 的 基于 短语 表 中 频率 计数 的 方法 相 
比 ， 可 以 产生 较 低 的 对 齐 错误 率 。 更 早 的 工作 (Klementiev et al. ， 
2012) 也 对 路 语言 词 癌 量 进行 了 研究 。 这 种 方法 的 存在 很 多 扩展 。 例 
如 ， 人 允许 在 更 大 数据 集 上 训练 的 更 高 效 的 跨 语 言 对 齐 (Gouws et al. , 
2014) . 


12.46 ”历史 展望 


在 对 反 同 传播 的 第 一 次 探索 中 ，Rumelhart etal. (1986a) 等 人 提出 了 分 
布 式 表示 和 侍 写 的 思想 ， 其 中 符号 对 应 于 族 成 员 的 里 份 ， 而 神经 网 络 捕 获 
族 成 员 之 加 的 关系 ， 训 练 样本 形成 三 元 组 如 (Colin、Mother、 

Victoria) 。 神 经 网 络 的 第 一 层 学 习 每 个 族 成 员 的 表示 。 例 如 ，Colin 的 
特征 可 能 代表 Colin 所 在 的 族 树 ， 他 所 在 树 的 分 文 ， 他 来 目 哪 一 代 等 
等 。 我 们 可 以 将 神经 网 络 认为 是 将 这 些 属 性 关联 在 一 起 的 计算 学 习 规 
则 ， 可 以 获得 期 望 预测 。 模 型 则 可 以 进行 预测 ， 例 如 推 叮 谁 是 Colin 的 
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Deerwester et al. (1990) J415 IRA HARIAS ERSA. IK EE ie 
MIE AASVD #2). Za, PRATER IZ ZR . 


目 然 语言 处 理 的 历史 是 由 流行 表示 (对 模型 输入 不 同方 式 的 表示 〉 的 变 
化 为 标志 的 。 在 早期 对 符号 和 词 建 模 的 工作 之 后 ， 神 经 网 络 在 NLP 上 一 
些 最 早 的 应 用 (Miikkulainen and Dyer, 1991; Schmidhuber, 1996) 将 
和 输入 表示 为 字符 序列 。 


Bengio et al. (2001b) 将 焦点 重新 引 到 对 词 建 模 并 引入 神经 语言 模型 ， 
能 产生 可 解释 的 词 舱 入 。 这 些 神经 模型 已 经 从 在 一 小 组 符 写 上 的 定义 表 
示 《20 世 纪 80 年 代 〉 扩展 到 现代 应 用 中 的 数 白 万字 (包括 专 有 名 词 和 拼 
写 错误 ) 。 这 种 计算 扩展 的 努力 导致 了 第 12.4.3 市 中 摘 述 的 技术 发 明 。 


最 初 ， 使 用 词 作 为 语言 模型 的 基本 单元 可 以 改进 语言 建 模 的 性 能 
(Bengio et al. , 2001b) 。 有 而今， 新 扩 术 不 断 推 动 基于 字符 CSutskever 
etal. ，2011) 和 基于 词 的 模型 同 前 发 展 ， 最 近 有 的 工作 (Gillick et al. , 
2015) 甚至 建 模 Unicode 字 符 的 单个 字 节 。 


神经 语言 模型 背后 的 思想 已 经 扩展 到 多 个 目 然 语言 处 理应 用 ， 如 解析 
(Henderson, 2003, 2004; Collobert，2011) 、 词 性 标注 、 语 义 角 色 标 
注 、 分 块 等 ， 有 时 使 用 共 至 词 租 入 的 单一 多 任务 学 习 染 构 (Collobert 
and Weston, 2008a; Collobert etal., 2011a) 。 


随 着 t-SNE 降 维 算法 的 发 展 (van der Maaten and Hinton, 2008) 以 及 
Joseph Turian 在 2009 年 引入 的 专用 于 可 视 化 词 艇 入 的 应 用 ， 用 于 分 析 语 
言 模型 租 入 的 二 维 可 视 化 成 为 一 种 流行 的 工具 。 


125 ”其 他 应 用 

在 本 节 中 ， 我 们 介绍 深度 学 习 一 些 其 他 类 型 的 应 用 ， 它 们 与 上 面 讨论 的 
标准 对 象 识别 、 语 音 识 别 和 自然 语言 处 理 任务 不 同 。 本 书 的 第 3 部 分 将 
扩大 这 个 范围 ， 甚 至 进一步 扩展 到 仍 是 目前 主要 研究 领域 的 任务 。 


12.5.1 推荐 系统 


ERARE J Las SJ AY Et A 2 EE PB Ee 

目 。 这 可 以 分 为 两 种 主要 的 应 用 : ER A WM 
的 目的 仍然 是 为 了 销售 产品 ) 。 两 者 都 依赖 于 预测 用 户 和 项 目 之 间 的 天 
联 ， 一 旦 同 该 用 户 展示 了 广告 或 推荐 了 设 产 品 ， 推 存 系 统 要 么 预测 一 些 
行为 的 概率 《用户 购买 产品 或 该 行为 的 一 些 代 蔡 ) 或 预期 增益 〈 其 可 取 
决 于 产品 的 价值 〉。 上 目前， 互联 网 的 资金 主要 来 自 各 种 形式 的 在 线 广 

告 。 经 济 的 主要 部 分 依靠 网 上 购物 。 包 括 Amazon 和 eBay 在 内 的 公司 都 
MEA S Plas CORRES) 推荐 他 们 的 产品 。 有 时 ， 项 目 不 是 实 
际 出 售 的 产品 ， 如 选择 在 社交 网 络 新 闻 信 息 流 上 显示 的 帖子 、 推 荐 观看 
的 电影 、 推 荐 笑话 、 推 荐 专家 建议 、[ 史 配 视频 游戏 的 玩家 或 由 配 约 会 的 
人 。 


通常 ， 这 种 关联 问题 可 以 作为 监督 学 习 问 题 来 处 理 : 给 出 一 些 关 于 项 目 
和 关于 用 户 的 信息 ， 预 测 感 兴趣 的 行为 《用户 点 击 厂 告 、 输 入 评级 、 氮 
ce“ EF, Waser, fer m EER. ZEN lal 。 
通常 这 最 终 会 归结 到 回归 问题 (预测 一 些 条 件 期 望 值 ) 或 概率 分 类 问题 
(预测 一 些 离散 事件 的 条 件 概 深 〉。 


早期 推荐 系统 的 工作 依赖 于 这 些 预 测 输入 的 最 小 信息 : 用 户 ID 和 项 目 

ID。 在 这 种 情况 下 ， 唯 一 的 泛 化 方式 依赖 于 不 同 用 户 或 不 同 项 目的 目标 
变量 值 之 间 的 模式 相似 性 。 假 设 用 户 1 和 用 户 2 都 喜欢 项 目 A，B 和 C. 由 
此 ， 我 们 可 以 推 半 出 用 户 1 和 用 户 2 其 有关 似 的 口味 。 如 采用 户 1 喜 欢 项 
目 D， 那 么 这 可 以 强烈 提示 用 户 2 也 喜欢 D。 基 于 此 原理 的 算法 称 为 协同 
过 滤 (collaborative filtering〉。 非 参数 方法 (例如 基于 估计 偏好 模式 之 
间 相 似 性 的 最 近邻 方法 ) 和 参数 方法 都 可 能 用 来 解决 这 个 问题 。 参 数 方 
法 通 间 依赖 于 为 每 个 用 户 和 每 个 项 目 学 习 分 布 式 表示 《也 称 为 验 入 ) 。 
目标 变量 的 双 线 性 预测 (例如 评级 ) 是 一 种 简单 的 参数 方法 ， 这 种 方法 
非 利 成 功 ， 通 弟 伞 认为 是 最 和 匈 进 系统 的 组 成 部 分 。 通 过 有 用户 租 入 和 项 目 
通 入 之 间 的 点 积 〈 可 能 需要 使 用 仅 依 赖 于 用 户 ID 或 项 目 ID 的 第 数 来 校 

IK) REW. SR EL TT EME, A HEMET Ae HP ER 
A, BFESa*APRAMARA. S bM c 是 分 别 包 含 针 对 每 个 用 户 ( 表 
示 用 万 平 彰 坏 脾气 或 积极 的 程度 ) 以 及 每 个 项 目 《〈《 表 示 其 大 体 有 党 欢迎 程 
BED 的 偏 置 问 量 。 因 此 ， 双 线性 预测 如 下 获得 


J 


通常 ， 人 们 和 希望 最 小 化 预测 评级 尺 ， 和 实际 评级 尺 ， 之 间 的 平方 误差 。 
当 用 户 藤 入 和 项 目 藤 入 首次 缩小 到 低 维度 《〈 两 个 或 三 个 ) IN, ETRE 
以 方便 地 可 视 化 ， 或 者 可 以 将 用 户 或 项 目 彼 此 进行 比较 〈 就 像 词 藤 

A) 。 获 得 这 些 租 入 的 一 种 方式 是 对 实际 目标 (例如 评级 ) 的 矩阵 R 进 
行 奇异 值 分 解 。 这 对 应 于 将 R = UDV) (或 归 一 化 的 变 体 ) 分 解 为 两 个 
因子 的 乘积 ， 低 秩 和 矩阵 A = UD 和 B 二 V 。SVD 的 一 个 问题 是 它 以 任 
意 方 式 处 理 缺 失 和 条目， 如同 它们 对 应 于 目标 值 0。 相 反 ， 我 们 希望 避免 
为 缺失 条 目 做 出 的 预测 付出 任何 代价 。 科 和 运 的 是 ， 观 察 到 的 评级 的 平方 
误 甜 总 和 也 可 以 使 用 基于 梯度 的 优化 最 小 化 。SVD 和 式 〈12.20) 中 的 
双 线 性 预测 在 Netflix 奖 竞赛 中 〈 目 的 是 仅 基 于 大 量 匿名 用 户 的 之 前 评级 
预测 电影 的 评级 ) 表现 得 非常 好 (Bennett and Lanning，2007) 。 许 多 
机 器 学 习 专 家 参加 了 2006 年 和 2009 年 之 间 的 这 场 比赛 。 它 提高 了 使 用 先 
进 机 器 学 习 的 推荐 系统 的 研究 水 平 ， 并 改进 了 推荐 系统 。 即 使 简单 的 双 
线性 预测 或 SVD 本 身 并 没有 赢得 比赛 ， 但 它 是 大 多 数 竞争 对 手提 出 的 整 
体 模型 中 一 个 组 成 部 分 ， 包 括 胜 者 〈Toscher et al. , 2009; Koren, 
2009) 。 


除了 这 些 具 有 分 布 式 表示 的 双 线 性 模型 之 外 ， 第 一 次 用 于 协同 过 滤 的 神 
经 网 络 之 一 是 基于 RBM 的 无 问 概 率 模 型 (Salakhutdinov et all , 
2007) 。RBM 是 Netflix 比 远 获 胜 方法 的 一 个 重要 组 成 部 分 (Toscher et 
al. , 2009; Koren, 2009) 。 神 经 网 络 社 群 中 也 已 经 探索 了 对 评级 矩阵 
进行 因子 分 解 的 更 高 级 变 体 (Salakhutdinov and Mnih, 2008) . 


然而 ， 协 同 过 滤 系 统 有 一 个 基本 限制 : 当 引 入 新 项 目 或 新 用 尸 时 ， 缺 乏 
评级 历史 意味 独 无 法 评 佑 其 与 其 他 项 目 或 用 户 的 相似 性 ， 或 者 说 无 法 评 
佑 新 的 用 尸 和 现 有 项 目的 联系 。 这 侯 称 为 冷 局 动 推荐 问题 。 解 决 冷 局 动 
EE AN AT eS ATA A aM PO, TRI 
(a AA De BP E SRE PARTIE. TEMS SY Rt AN 
为 基于 内 容 的 推荐 系统 (content-based recommender system) 。 从 丰富 
的 用 户 特 征 或 项 目 特 征集 到 骨 入 的 映 冉 可 以 通过 深 谋 学 习 架 构 学 习 
(Huang etal. , 2013; Elkahky etal., 2015) . 


专用 的 深度 学 习 架 构 ， 如 卷 积 网 络 已 经 应 用 于 从 丰富 内 容 中 提取 特征 ， 
如 提取 用 于 音乐 推荐 的 音乐 音 轨 (van den Oörd et al. ，2013) 。 在 该 工 
作 中 ， 郑 积 网 络 将 声学 特征 作为 输入 并 计算 相关 歌曲 的 舱 入 。 访 歌曲 骸 
入 和 用 户 租 入 之 则 的 点 积 则 可 以 预测 用 户 是 否 将 收听 该 歌曲 。 


12.5.1.1 探索 与 开发 


当 问 用 户 推 荐 时 ， 会 产生 超出 普通 监督 学 习 苑 围 的 问题 ， 并 进入 强化 学 
习 的 领域 。 理 论 上 ， 许 多 推荐 问题 最 准确 的 摘 述 是 contextual 

bandit (Langford and Zhang, 2008; Lu et al. , 2010) 。 问 题 是 ， 当 我 
们 使 用 推荐 系统 收集 数据 时 ， 我 们 得 到 是 一 个 有 偏 且 不 完整 的 用 户 偏 好 
观 : 我 们 只 能 看 到 用 户 对 推荐 给 他 们 项 目的 反应 ， 而 不 是 其 他 项 目 。 此 
外 ， 在 菏 些 情况 下 ， 我 们 可 能 无 法 获得 未 回 其 进行 推荐 的 用 户 的 任何 信 
轧 《〈 例 如 ， 在 广告 竞价 中 ， 可 能 是 广告 的 建议 价格 低 于 最 低 价 格 国 什 ， 
或 者 没有 万 得 苋 价 ， 因 此 广告 不 会 显示 ) 。 更 重要 的 是 ， 我 们 不 知道 推 
存 任何 其 他 项 目 会 产生 什么 结 未 。 这 束 像 训练 一 个 分 类 器 ， 为 每 个 训练 
样本 x 挑选 一 个 英 别 YY 《〈 通 前 是 基于 模型 最 高 概率 的 闫 别 ) ， 然 后 只 能 
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的 是 ， 如 采 我 们 不 够 小 心 ， 即 使 收集 越 来 越 多 的 数据 ， 我 们 得 到 的 系统 
可 能 会 继续 选择 错误 的 决定 ， 因 为 正确 的 决定 最 初 只 有 很 低 的 概 识 : H 
到 学 习 者 选择 正确 的 决定 之 前 ， 访 系统 都 无 法 学 习 正 确 的 决定 。 这 次 似 
于 强化 学 习 的 情况 ， 其 中 仅 观察 到 所 选 动作 的 奖励 。 一 般 来 说 ， 强 化 学 
习 会 涉及 许多 动作 和 许多 奖励 的 序列 。bandit 情 景 是 强化 学 习 的 特殊 情 
况 ， 其 中 学 习 痢 仅 采 取 单 一 动作 并 接收 单个 炎 励 。bandit 问 题 在 学 习 者 
知道 哪个 奖励 与 哪个 动作 相关 联 的 时 更 容易 。 在 一 般 的 强化 和 学习 场景 
中 ， 高 奖励 或 低 奖 励 可 能 是 由 最 近 的 动作 或 很 久 以 前 的 动作 引起 的 。 术 
语 contextual bandit 指 的 古 在 一 些 输入 变量 可 以 通知 决定 的 上 下 文中 采 
取 动 作 的 情况 。 例 如 ， 我 们 人 至少 知道 用 户 号 份 ， 并 且 我 们 要 选择 一 个 项 
目 。 从 上 下 文 到 动作 的 映射 也 称 为 策略 (policy〉。 学 习 者 和 数据 分 布 
(现在 取决 于 学 习 者 的 动作 ) 之 间 的 有 反馈 循环 是 强化 学 习 和 bandit 研 究 
的 中 心 问题 。 


强化 学 习 需 要 权衡 探 过 (exploration) 与 开发 (exploitation) 。 开 发 指 
的 是 从 目前 学 到 的 最 好 策略 采取 动作 ， 也 残 是 我 们 所 知 的 将 获得 高 奖励 
的 动作 。 探 索 ”是 指 采 取 行动 以 获得 更 多 的 训练 数据 。 如 果 我 们 知道 给 
定 上 下 文 x ， 动 作 a 给 予 我 们 1 的 奖励 ， 但 我 们 不 知道 这 是 人 否 古 最 好 的 交 
励 。 我 们 可 能 想 利 用 我 们 目前 的 稼 略 ， 并 继续 采取 行动 a 相 对 上 育 定 地 获 

得 1 的 奖励 。 然 而 ， 我 们 也 可 能 想 通 过 答 试 动作 a 来 探索 。 我 们 不 知道 答 
试 动作 a' 会 有 友 生 什么 。 我 们 希望 得 到 2 的 奖励 ， 但 有 获得 0 奖励 的 风险 。 


无 论 如 何 ， 我 们 全 少 获 得 了 一 些 知识 。 


探索 “可 以 以 许多 方式 实现 ， 从 复 关 可 能 动作 的 整个 空间 的 随机 动作 到 
基于 模型 的 方法 基于 预期 回报 和 模型 对 该 回报 不 确定 性 的 量 来 计算 动 
作 的 选择 ) 。 


主 多 因 系 决定 了 我 们 器 欢 探 索 或 开 友 的 程度 。 最 突出 的 因 系 之 一 古 我 们 
感 兴趣 的 时 间 尺 上 度 。 如 果 代 理 只 有 短暂 的 时 间 积 索 交 励 ， 那 么 我 们 品 欢 
更 多 的 开 及 。 如 末代 理 有 很 长 时 间 积 款 奖励 ， 那 么 我 们 开始 更 多 的 探 
索 ， 以 便 使 用 更 多 的 知识 更 有 效 地 规划 未 来 的 动作 。 


监督 学 习 在 探索 或 开 肥 之 间 设 有 权衡 ， 因 为 监督 信号 总 是 指定 哪个 输出 
对 于 每 个 输入 有 古 正确 的 。 我 们 总 是 知道 标签 是 最 好 的 输出 ， 没 有 必要 壬 
试 不 同 的 输出 来 确定 是 含 优 于 模型 当前 的 输出 。 


除了 权衡 探索 和 开发 之 外 ， 强 化 学 习 青 景 下 出 现 的 另 一 个 困难 是 难以 评 
估 和 比较 不 同 的 案 略 。 强 化 学 习 包 括 学 习 者 和 环境 之 间 的 相互 作用 。 这 
个 反馈 回路 意味 着 使 用 固定 的 测试 集 输入 评估 学 习 者 的 表现 不 是 下 接 
的 。 策 略 本 身 确定 将 看 到 哪些 输入 。Dudik et al. (2011) 提出 了 评估 
contextual bandit 的 技术 。 


12.5.2 ”知识 表示 、 推 理 和 回答 


因为 使 用 符号 (Rumelhart et al. , 1986a) 和 词 租 入 (Deerwester et al. 
, 1990; Bengio et al. ，2001b) ， 深 度 学 习 方 法 在 语言 模型 、 机 器 翻 译 
和 目 然 语言 处 理 方面 非常 成 功 。 这 些 租 入 表示 关于 单个 词 或 概念 的 语义 
知识 。 研 究 前 沿 是 为 短语 或 词 和 事实 之 间 的 天 系 开 发 税 入 。 搜 有 索引 苟 已 
经 使 用 机 此 学 习 来 实现 这 一 上 日 的 ， 但 是 要 改进 这 些 更 高 级 的 表示 还 有 许 
多 工作 要 做 。 


12.5.2.1 知识、 联系 和 回答 


一 个 有 趣 的 研究 方 同 是 确定 如 何 训练 分 布 式 表示 才能 捕获 两 个 实体 之 间 
的 关系 (relation) 。 


数学 中 ， 二 元 关系 是 一 组 有 序 的 对 象 对 。 集 合 中 的 对 上 共有 这 种 关系 ， 而 


那些 不 在 集合 中 的 对 则 没有 。 例 如 ， 我 们 可 以 在 实体 集 {1，2，3} 上 定 
义 关系 “小 于 "来 定义 有 序 对 的 集合 S = {(1, 2), (1,3), (2,3)} 。 一 旦 
这 个 关系 被 定义 ， 我 们 可 以 像 动词 一 样 使 用 它 。 因 为 (1,2) ES > R 
们 说 1 小 于 2。 因 为 (2, 1) gS ， 我 们 不 能 说 2 小 于 1。 当 然 ， 彼 此 相关 的 
实体 不 必 是 数字 。 我 们 可 以 定义 关系 ia_a_type_of 包含 如 〈 狗 ， 哺 乳 动 
物 ) 的 元 组 。 


在 AI 的 育 景 下 ， 我 们 将 关系 看 作 句 法 上 简单 且 高 度 结构 化 的 语言 。 关 系 
起 到 动词 的 作用 ， 而 关系 的 两 个 参数 友 挥 着 主体 和 各 体 的 作用 。 这 些 句 
子 是 一 个 三 元 组 标记 的 形式 : 


(subject, verb, object) (1221) 
FEE 


(entity;, relation,;, entity, ) (12.22) 


我 们 还 可 以 定义 属性 Cattribute) ， 类 似 于 关系 的 概念 ， 但 只 需要 一 个 
参数 


> 


(entity;, attribute; ) (12.23) 
例如 ， 我 们 可 以 定义 has_fur 属性 ， 并 将 其 应 用 于 像 狗 这 样 的 实体 。 
许多 应 用 中 需要 表示 关系 和 推理 。 我 们 如 何在 神经 网 络 中 做 到 这 一 点 ? 


机 妖 学 习 柑 型 当然 需要 训练 数据 。 我 们 可 以 推断 非 结 构 化 目 然 语言 组 成 
的 训练 数据 集中 实体 之 间 的 关系， 也 可 以 使 用 明确 定义 关系 的 结构 化 数 
据 库 。 这 些 数 据 库 的 共同 结构 是 天 系 型 数据 库 ， 它 存储 这 种 相同 类 型 的 
言 恩 ， 里 然 没 有 格式 化 为 三 元 标记 的 句子 。 当 数据 库 骨 在 将 日 党 生活 中 
弟 识 或 天 于 应 用 领域 的 专业 知识 传达 给 入 工 乔 能 系统 时 ， 我 们 将 这 种 数 
据 库 称 为 知识 库 。 知 识 库 包括 一 般 的 ， 保 Freebase、OpenCyc、 
WordNet, Wikibase 等 ， 还 包括 专业 的 知识 库 ， 如 GeneOntology 3。 
实体 和 关系 的 表示 可 以 将 知识 库 中 的 每 个 三 元 组 作为 训练 样本 来 学 习 ， 
并 且 以 最 大 化 捕获 它们 的 联合 分 布 为 训练 目标 (Bordes et al , 
2013a) 。 
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语言 模型 扩展 到 模型 实体 和 关系 。 神 经 语言 模型 学 习 提 供 每 个 词 分 布 式 
表示 的 同 量 。 他 们 还 通过 学 习 这 些 同 量 的 函数 来 学 习 词 之 间 的 相互 作 
用 ， 例 如 哪些 词 可 能 出 现在 词 序列 之 后 。 我 们 可 以 学 习 每 个 关系 的 能 入 
问 量 将 这 种 方法 扩展 到 实体 和 关系 。 事 实 上 ， 建 模 语 言 和 通过 关系 编 公 
建 模 知识 的 联系 非 沼 接近， 研究 人 员 可 以 同时 使 用 知识 库 和 目 然 语言 句 
子 训 练 这 样 的 实体 表示 (Bordes et al. , 2011, 2012; Wang et al. , 
2014a) ， 或 组 合 来 目 多 个 关系 型 数据 库 的 数据 (Bordes et all , 
2013b) 。 可 能 与 这 种 模型 相关 联 的 特定 参数 化 有 许多 种 。 早 期 关于 学 
习 实 体 间 关系 的 工作 (Paccanaro and Hinton, 2000) 假定 高 度 受 限 的 参 
数 形式 (“SAVER RRA”) ， 通 利 对 天 系 使 用 与 实体 形式 不 同 的 表示 。 
例如 ，Paccanaro and Hinton (2000) 和 Bordes et al. (2011) 用 问 量 表示 
实体 而 官 阵 表 示 关 系 ， 其 思想 是 关系 在 实体 上 相当 于 运算 符 。 或 者 ， 天 
系 可 以 被 认为 是 任何 其 他 实体 (Bordes et al. , 2012) ， 人 允许 我 们 关于 
， 但 是 更 灵活 的 是 将 它们 结合 在 一 起 并 建 模 联合 分 布 的 机 
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这 种 模型 的 实际 短期 应 用 是 链接 预测 Cink prediction) : 预测 知识 图 谱 
中 缺失 的 弧 。 这 是 基于 旧事 实 推广 新 事实 的 一 种 形式 。 目 前 存在 的 大 多 
数 知 识 库 都 是 通过 人 力克 动 构建 的 ， 这 往往 使 知识 库 缺 失 许多 并 用 可 能 
是 大 多 数 真 正 的 关系 。 请 查看 Wang et al. (2014b) 、Lin et al. 
(2015) 和 Garcia-Duran et al. (2015) 中 这 样 应 用 的 例子 。 


我 们 很 难 评估 和 链接 预 市 任务 上 模型 的 性 能 ， 因 为 我 们 的 数据 集 只 有 正 样 
本 《已 知 是 真实 的 事实 ) 。 如 果 模 型 提出 了 不 在 数据 集中 的 事实 ， 我 们 
个 确定 模型 是 犯 了 错误 还 是 肥 现 了 一 个 新 的 以 前 未 知 的 事实 。 度 量 基于 
测试 模 型 如 何 将 已 知 芮 实事 实 的 留存 集合 与 不 太 可 能 为 真 的 其 他 事实 相 
比较 ， 因 此 有 些 不 精确 。 构 造 感 兴趣 的 人 负 样 本 《可 能 为 假 的 事实 ) 的 和 
见方 式 是 从 真实 事实 开始 ， 并 创建 该 事实 的 损坏 版 本 ， 例 如 用 随机 选择 
的 不 同 实体 蔡 换 关系 中 的 一 个 实体 。 通 用 的 测试 精度 〈10% 度 量 ) 计算 
模型 在 该 事 实 的 所 有 损坏 版 本 的 前 10% 中 选择 “正确 ”事实 的 次 数 。 


知识 库 和 分 布 式 表 示 的 为 一 个 应 用 是 词义 消 上 (Word-sense 
disambiguation) (Navigli and Velardi, 2005; Bordes et al. , 2012) , 
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最 后 ， 知 识 的 关系 结合 一 个 推理 过 程 和 对 上 自然 语言 的 理解 可 以 让 我 们 建 
立 一 个 一 般 的 问答 系统 。 一 般 的 问答 系统 必须 能 处 理 输入 信息 并 记 住 重 
要 的 事实 ， 并 以 之 后 能 检索 和 推理 的 方式 组 织 。 这 仍然 是 一 个 困难 的 开 
放 性 问题 ， 只 能 在 受 限 的 “玩具 ”环境 下 解决 。 日 前 ， 记 住 和 检 过 特定 声 
明 性 事实 的 最 住 方法 是 使 用 显 式 记 忆 机 制 ， 如 第 10.12 节 所 述 。 记 忆 网 
络 最 开始 是 被 用 来 解决 一 个 玩具 问答 任务 (Weston et al. , 2014) à- 
Kumar et al. (2015b) 提出 了 一 种 扩展 ， 使 用 GRU 循 环 网 络 将 输入 谈 入 
存储 需 并 且 在 给 定 存 储 右 的 内 容 后 产生 回答 。 


深度 学 习 已 经 应 用 于 其 他 许多 应 用 《除了 这 里 描述 的 应 用 以 外 ) ， 并 且 
肯定 会 在 此 之 后 应 用 于 更 多 的 场景 。 我 们 不 可 能 全 面 朱 述 与 此 主题 相关 
的 所 有 应 用 。 本 项 调查 尽 可 能 地 提供 了 在 本 文 写作 之 时 的 代表 性 样本 。 
本 书 第 2 部 分 介绍 了 涉及 深度 学 习 的 现代 实践 ， 守 括 了 所 有 非常 成 功 的 
方法 。 一 般 而 言 ， 这 些 方 法 使 用 代价 函数 的 标 度 寻找 柑 型 (近似 于 条 些 
所 期 望 的 函数 ) 的 参数 。 当 其 且 够 的 训练 数据 时 ， 这 种 方法 是 非 第 强 
大 的 。 我 们 现在 转 到 第 3 部 分 ， 开 始 进 入 研究 领域 ， 审 在 使 用 较 少 的 训 
练 数 据 或 执行 更 多 样 的 任务 。 而 且 相 比 目 前 为 止 所 插 述 的 情况 ， 其 中 的 
挑战 更 困难 并 且 远 远 没 有 解决 。 


(1) 详 痢 注 : 所 有 样本 相似 的 距离 。 


(2) 分 别 可 以 在 如 下 网 址 获取 : freebase.com, cyc.com/opencyc, wordnet.princeton.edu, 
wikiba.se 


(3) geneontology.org 
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在 本 书 的 前 两 部 分 ， 我 们 已 经 展示 了 如 何 解 决 监督 学 习 问 题 ， 即 在 给 定 
足够 的 映射 样本 的 情况 下 ， 学 习 将 一 个 回 量 映射 到 另 一 个 。 
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本 、 或 确定 一 个 点 的 似 然 性 、 或 处 理 缺 失 值 以 及 利用 一 组 大 量 的 未 标记 
样本 或 相关 任务 的 样本 。 当 前 应 用 于 工业 的 最 先进 技术 的 缺点 是 我 们 的 
学 习 算 法 需要 大 量 的 监督 数据 才能 实现 民 好 的 精度 。 在 本 书 这 一 部 分 ， 
我 们 讨论 一 些 推测 性 的 方法 ， 来 减少 现 有 和 借 型 工作 所 需 的 标注 数据 量 ， 
并 适用 于 更 广泛 的 任务 。 实 现 这 些 目 标 通常 需要 祭 种 形式 的 无 监督 或 半 


RÈ ms N 
监督 和 学习。 


许多 深度 学 习 算 法 被 设计 为 处 理 无 监督 学 习 问 题 ， 但 不 像 深 度 学习 已 经 
在 很 大 程度 上 解决 了 各 种 任务 的 监督 学 习 问 题 ， 没 有 一 个 算法 能 以 同样 
的 方式 真正 解决 无 监督 学 习 问 题 。 在 本 书 这 一 部 分 ， 我 们 插 述 无 监督 学 
习 的 现 有 方法 和 一 些 如 何在 这 一 领域 取得 进展 的 流行 思想 。 


无 监督 学习 困难 的 核心 原因 古 被 建 模 的 随机 变量 的 局 维度 。 这 市 来 了 两 
个 不 同 的 挑战 ， 统 计 挑 战 和 计算 挑战 。 统 计 挑 战 与 泛 化 相关 : 我 们 可 能 
想 要 区 分 的 配置 数 会 随 看 感 兴趣 的 维度 数 指数 增长 ， 并 且 这 快速 变 得 比 
可 能 具有 的 《或 者 在 有 限 计算 资源 下 使 用 的 ) 样本 数 大 得 多 。 与 珊 维 分 
布 相关 联 的 计算 挑战 之 所 以 会 出 现 ， 是 因为 用 于 学 习 或 使 用 训练 模型 的 
许多 算法 “特别 是 基于 估计 显 式 概率 函数 的 算法 ) 涉及 难处 理 的 计算 

量 ， 并 且 随 维 数 呈 指数 增长 。 


使 用 概率 模型 ， 这 种 计算 挑战 来 目 执 行 难 解 的 推断 或 归 一 化 分 布 。 
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合 分 布 的 模型 ， 给 定 其 他 变量 b 的 情况 下 ， 猿 测 一 些 变 量 a 的 可 能 

值 。 为 了 计算 这 样 的 条 件 概率 ， 我 们 需要 对 灾 量 c 的 值 求 和 ， 以 及 
计算 对 a 和 c 的 值 求 和 的 归 一 化 常数 。 

难 解 的 归 一 化 常数 〈 配 分 函数 ) : 配 分 函数 主要 在 第 18 章 讨论 。 归 
一 化 概率 函数 的 常数 在 推 师 (上 文 ) 以 及 学 习 中 出 现 。 许 多 概率 模 
型 涉及 这 样 的 归 一 化 和 常数。 不 圣 的 是 ， 学 习 这 样 的 檬 型 通 沼 需要 相 
对 于 模型 参数 计算 配 分 函数 对 数 的 梯 肛 。 该 计算 通 和 常 与 计算 配 分 也 
BAS Ey — PEER ARBAB SRR RS (MCMC) (第 17 章 ) JH 
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时 ，MCMC 方 法 会 出 现 问 题 ， 特 别 是 在 高 维 空 间 中 〈 参 见 第 17.5 

oes 


面 对 这 些 难 以 处 理 的 计算 的 一 种 方法 是 近似 它们 ， 如 在 本 书 的 第 3 部 分 
中 讨论 的 ， 研 究 者 已 经 提出 了 许多 方法 。 这 里 还 讨论 男 一 种 有 趣 的 方式 
是 通过 设计 模型 ， 完 全 避免 这 些 难以 处 理 的 计算 ， 因 此 不 需要 这 些 计 算 
的 方法 是 非常 有 吸引 力 的 。 近 年 来 ， 研 究 者 已 经 提出 了 数 种 具有 该 动机 
的 生成 檬 型 。 其 中 第 20 章 讨论 了 各 种 各 样 的 现代 生成 式 建 模 方 法 。 


第 3 部 分 对 于 研究 者 来 说 是 最 曾 要 的 ， 人 研究 者 想 要 了 解 深 度 学 习 领 域 的 
广度 ， 并 将 领域 推 问 真正 的 人 工 智 能 。 


第 13 章 ”线性 因 于 模型 


许多 深度 学 习 的 研究 前 治 均 涉 及 构建 输入 的 概率 醒 型 p oqo (X )。 原 则 
上 说 ， 给 定 任 何其 他 变量 的 情况 下 ， 这 样 的 模型 可 以 使 用 概率 推 师 来 预 
测 其 环境 中 的 任何 变量 。 许 多 这 样 的 模型 还 具有 潜 变 量 h  ， 其 中 
LS Kp, ee | h) o EE etek [AN BU A 
一 种 方式 。 我 们 在 深度 前 馈 网 络 和 循环 网 络 中 已经 友 现 ， 基 于 潜 变 量 的 
分 布 式 表示 继承 了 表示 学 习 的 所 有 优 操 。 


在 本 革 中 ， 我 们 描述 了 一 些 基 于 潜 变 量 的 最 简单 的 概率 模型 :线性 因子 
模型 (linear factor model) 。 这 些 模 型 有 时 被 用 来 作为 混合 模型 的 组 成 
模块 (Hinton et al. ，1995a; Ghahramani and Hinton, 1996; Roweis et 
al., 2002) 或 者 更 大 的 深度 概率 模型 (Tang et al. , 2012) > EJE}, H 
介绍 了 构建 生成 模型 所 需 的 许多 基本 方法 ， 在 此 基础 上 更 先进 的 深度 模 
型 也 将 得 到 进一步 扩展 。 


线性 因子 模型 通过 随机 线性 解码 右 函 数 来 定义 ， 该 函数 通过 对 h 的 线性 
AP FRA KS TIN FORE BM, X o 

ARE, Tc He AY RA ee A EL ES fin] FEE ES Op FE PR EE 
Al. ABE AEN as HY fl FE ESE TI BA Se ARR E 


I 
A o 


线性 因 了 于 模型 持 述 如 下 的 数据 生成 过 程 。 首 先 ， 我 们 从 一 个 分 布 中 抽取 
解释 性 因子 h ， 


h ~ p(h) (13.1) 


其 中 p(h ) 是 一 个 因子 分 布 ， 满 足 p(h )= 二 TT;p(h;)， 所 以 易于 从 中 采样 。 
接 下 来 ， 在 给 定 因子 的 情况 下 ， 我 们 对 实 值 的 可 观察 变量 进行 采样 


x = Wh + b + noise (Loud) 


其 中 噪声 通常 是 对 角 化 的 (在 维度 上 是 独立 的 ) 且 服 从 高 斯 分 布 。 这 在 
图 13.1 有 具体 说 明 。 





x= Wh+b+noise 
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在 因子 h 的 线性 组 合 再 加 上 一 定 噪 声 获 得 的 。 不 同 的 模型 ， 比 如 概率 PCA、 因 子 分 析 或 者 是 
ICA， 都 是 选择 了 不 同形 式 的 噪声 以 及 先 验 p( 产 ) 


13.1 ”概率 PCA 和 因子 分 析 


概率 PCA (probabilistic PCA) 、 因 子 分 析 和 其 他 线性 因子 模型 是 上 述 
等 式 〈 式 〈13.1) 和 式 (13.2) ) 的 特殊 情况 ， 并 且 仅 在 对 观测 到 x 之 
前 的 噪声 分 布 和 洪 变 量 h 先 验 的 选择 上 有 所 不 同 。 


在 因子 分 析 (factor analysis) (Bartholomew, 1987; Basilevsky, 
1994) 中 ， 潜 变量 的 先 验 是 一 个 方 弄 为 单位 矩阵 的 高 斯 分 布 


h ~ N(h; 0, I) (13-3) 


同时 ， 假 定 在 给 定 h 的 条 件 下 观察 值 x ;是 条 件 独 六 《conditionally 
independent) 的 。 有 具体 来 说 ， 我 们 可 以 假设 噪声 是 从 对 角 协 方差 矩阵 的 
局 斯 分 布 中 抽出 的 ， 协 方差 矩阵 为 由 二 diag ( o 2 ) ， 其 中 
a = ETa pac]! RKR AHE, EAMA PEIN TT 
Fae 


AG, JARS AVE FS ede aR A Te) UA ex, 之 间 的 依赖 和 关系。 实际 上 ， 
可 以 容易 地 看 出 x 服从 多 维 正 态 分 布 ， 并 满足 

x~N(a:b,WW' +4) (13.4) 
为 了 将 PCA 引 入 到 概率 框架 中 ， 我 们 可 以 对 因子 分 析 模 型 作 轻 微 修改 ， 
EAE Ao? ”等 于 同一 个 值 。 在 这 种 情况 下 ， x 的 协 方差 简化 为 
WW! +I ， 这 里 的 c “ 是 一 个 标量 。 由 此 可 以 得 到 条 件 分 布 ， 如 


下 : 

x~ N(a2:b,WW' 十 co27) (13.5) 
或 者 等 价 地 

x= Wh+b+oz (13.6) 


其 中 z ~ N(z:0, I) 是 高 斯 噪声 。 之 后 Tipping and Bishop (1999) 提 
出 了 一 种 迭代 的 EM 算法 来 估计 参数 W 和 o“。 


这 个 概 雍 PCA (probabilistic PCA) 模型 利用 了 这 样 一 种 观察 现象 : 除 
了 一 些微 小 残余 的 重 构 误差 (reconstruction error) 〈 至 多 为 0“ ) ， 数 
据 中 的 大 多 数 变 化 可 以 由 潜 变 量 h 摘 述 。 通 过 Tipping and 
Bishop (1999) 的 研究 我 们 可 以 友 现 ， 当 o -0 时 ， 概 率 PCA 退 化 为 
PCA。 在 这 种 情况 下 ， 给 定 x 情况 下 h 的 条 件 期 望 等 于 将 x -b 投影 到 
W 的 d 列 所 生成 的 空间 上 ， 与 PCA 一 样 。 


当 o 0 时 ， 概 率 PCA 所 定义 的 密度 函数 在 d 维 的 W 的 列 生 成 空间 周围 非 
TERE AFRE SNRA TE PET TE PR SEN BG PICs ER 


的 概率 。 
13.2 ”独立 成 分 分 析 


独立 成 分 分 机 (independent component analysis, ICA) 是 最 古老 的 表示 
学 习 算 法 之 一 (Herault and Ans, 1984; Jutten and Herault, 1991; 

Comon, 1994; Hyvärinen, 1999; Hyvärinen et al. , 2001a; Hinton et 
al. , 2001; Teh et al. , 2003) 。 它 是 一 种 建 模 线性 因子 的 方法 ， 旨 在 
将 观 穴 到 的 信号 分 离 成 许多 洲 在 信号 ， 这 些 淤 在 信号 通过 缩放 和 和 登 加 可 
以 恢复 成 观察 数据 。 这 些 信 号 是 完全 独立 的 ， 而 不 是 仅仅 彼此 不 相关 乌 


许多 不 同 的 具体 方法 被 称 为 ICA。 与 我 们 本 书 中 摘 述 的 其 他 生成 模型 最 
相似 的 ICA 变 种 (Pham et al. , 1992) 训练 了 完全 参数 化 的 生成 模型 。 
潜在 因子 h 的 先 验 p( h )， 必 须 由 用 户 提 前 给 出 并 国定。 接着 模 型 确定 
性 地 生成 x = Wh 。 我 们 可 以 通过 非 线 性 变化 (使 用 式 (3.47) ) 来 确 
定 PCO。 然 后 通过 一 般 的 方法 比如 最 大 化 似 然 进 行 学 习 。 


这 种 方法 的 动机 是 ， 通 过 选择 一 个 独立 的 p( h )， 我 们 可 以 尽 可 能 恢复 
接近 独立 的 海 在 因子 。 这 是 一 种 第 用 的 方法 ， 它 并 不 是 用 来 捕捉 噩 级 列 
的 抽象 因素 因子 ， 而 是 恢复 已 经 混合 在 一 起 的 低级 别 信 号 。 在 该 设置 
中 ， 每 个 训练 样本 对 应 一 个 时 刻 ， 每 个 x ; 征 一 个 传 感 苍 对 混合 信号 的 观 
察 值 ， 并 且 每 个 h i 十 单个 原始 信号 的 一 个 估计 。 例 如 ， 我 们 可 能 有 n 个 
人 同时 次 话 。 如 有 条 我 们 和 在 不 同位 置 放置 n 个 不 同 的 麦 元 风 ， 则 ICA 可 以 
习 测 每 个 老 元 风 的 音量 变化 ， 并 且 分 离 信 号 ， 使 得 每 个 hi 仪 包含 一 个 人 
消 苞 地 说 话 。 这 退 弟 用 于 脑 电 图 的 神经 科学 ， 这 种 技术 可 用 于 记录 源 目 
大 脑 的 电信 写 。 帮 置 在 受 试 者 涉 部 上 的 许多 电极 传 感 副 用 于 测量 来 日 号 
体 的 多 种 电信 号 。 实 验 痢 通 币 仅 对 来 目 大 脑 的 信号 感 兴 趣 ， 但 是 来 目 受 
试 者 心 胜 和 眼睛 的 信号 强 到 足以 混 消 在 受 试 者 头 诡 处 的 测量 结 末 。 信 和 号 
到 达 电 极 ， 并 且 混 合 在 一 起 ， 因 此 为 了 分 离 源 于 心脏 与 源 于 大 脑 的 信 
号 ， 并 且 将 不 同 脑 区 域 中 的 信号 彼此 分 离 ，ICA 是 必要 的 。 


如 前 所 述 ，ICA 和 存在 许多 变种 。 一 些 版 本 在 x 的 生成 中 添加 一 些 噪声 ， 
而 不 是 使 用 确定 性 的 解码 蔡 。 大 多 数 方法 不 使 用 最 大 似 然 准则 ， 而 是 旨 
在 使 h = W 了 x 的 元 素 彼 此 独立 。 许 多 准则 能 够 达成 这 个 目标 。 式 


(3.47) 需要 用 到 W 的 行列 式 ， 这 可 能 是 代价 很 高 且 数 值 不 稳定 的 操 
作 。ICA 的 一 些 变种 通过 将 W 约束 为 正 交 来 避免 这 个 有 问题 的 操作 。 


ICA 的 所 有 变种 均 要 求 p(h ) 古 非 咒 斯 的 。 这 是 因为 如 末 p( he A ie 
分 量 的 独立 先 验 ， 则 W 是 不 可 识别 的 。 对 于 许多 W 值 ， 我 们 可 以 在 p( 
x ) 上 获得 相同 的 分 布 。 这 与 其 他 线性 因子 模型 有 很 大 的 区 别 ， 例 如 概率 
PCA 和 因子 分 析 通 常 要 求 p(h ) 是 高 斯 的 ， 以 便 使 模型 上 的 许多 操作 具有 
站 式 解 。 在 用 户 明确 指定 分 布 的 最 大 似 然 方法 中 ， 一 个 由 型 的 先 择 是 合 
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用 p(hi) = ga (hi) :这 此 提高 斯 分 布 的 由 型 过 择 在 
0 附近 具有 比 高 斯 分 布 更 高 的 峰值 ， 因 此 我 们 也 可 以 看 到 独立 成 分 分 析 
经 常用 于 学 习 稀 朴 特征 。 


按照 我 们 对 生成 模型 这 个 术语 的 定义 ，ICA 的 许多 变种 不 是 生成 模型 。 
在 本 书 中 ， 生 成 模型 可 以 直接 表示 p( x )， 也 可 以 认为 是 从 p( x ) 中 抽取 
样本 。ICA 的 许多 变种 仪 知道 如 何在 x 和 h 之 间 变 换 ， 而 没有 任何 表示 
p(hh ) 的 方式 ， 因 此 也 无 法 在 p(x ) 上 施加 分 布 。 例 如 ， 许 多 ICA 变 量 由 在 
增加 h = Wx 的 样本 峰 度 ， 因 为 高 峰 度 说 明了 p(h ) 是 非 高 斯 的 ， 但 这 
是 在 没有 显 式 表示 p( h ) 的 情况 下 完成 的 。 这 束 是 为 什么 ICA 多 被 用 作 分 
房 信 号 的 分 析 工 具 ， 而 不 是 用 于 生成 数据 或 估计 其 密度 。 


正如 PCA 可 以 推广 到 第 14 半 中 插 述 的 非 线 性 目 编码 如 ，ICA 也 可 以 推广 
到 非 线 性 生成 模型 ， 其 中 我 们 使 用 非 线 性 函数 {水 生成 观测 数据 。 关 于 

非 线 性 ICA 最 初 的 工作 可 以 参考 Hyvirinen and Pajunen (1999) ， 它 和 和 集 
成 学 习 的 成 功 结合 可 以 参见 Roberts and Everson (2001) ~ Lappalainen 
et al. (2000) 。ICA 的 另 一 个 非 线 性 扩展 是 非 线性 独立 成 分 估计 
(nonlinear independent components estimation, NICE) 方法 (Dinh et al. 
» 2014) , APTAS RI ERE CHESS aT BO). REE 
是 能 高 效 地 计算 每 个 变换 的 Jacobian 行 列 式 。 这 使 得 我 们 能 够 精确 地 计 

算 似 然 ， 并 且 像 ICA 一 样 ，NICE 壬 试 将 数据 变换 到 具有 因子 的 边缘 分 布 
的 空间 。 由 于 非 线 性 编码 右 的 使 用 ， 这 种 方法 更 可 能 成 功 。 因 为 编 公 右 
和 一 个 能 进行 完 闫 人 逆 变 换 的 解码 器 相 关联 ， 所 以 可 以 责 接 从 模型 生成 样 
AS CFG Ap( h REE, PATS EL AAAS AB) o 
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学 习 特 征 组 (Hyvirinen and Hoyer, 1999; Hyvärinen et al. , 2001b) 。 
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间 坐 标 ， 并 且 衬 间 上 相 邻 的 单元 组 形成 一 定 程度 的 重合 。 这 能 够 或 励 相 
邻 的 单元 学 习 次 似 的 符 征 。 当 应 用 于 目 然 图 像 时 ， 这 种 地 质 ICA 
(topographic ICA) 方法 可 以 学 习 Gabor 滤 波 右 ， 从 而 使 得 相 邻 特征 具 
有 相似 的 方 同 、 位 置 或 频率 。 在 每 个 区 域内 出 现 类 似 Gabor 函 数 的 许多 
不 同 相 位 存在 抵消 作用 ， 使 得 在 小 区 域 上 的 池 化 产生 了 平移 不 变性 。 


13.3 ” 慢 特 征 分 析 


慢 特 征 分 析 (slow feature analysis, SFA) 是 使 用 来 日 时 间 信 号 的 信息 
学 习 不 变 特 征 的 线性 因子 模型 (Wiskott and Sejnowski, 2002) . 


慢 特 征 分 析 的 想法 源 于 所 请 的 慢性 原则 (slowness principle) 。 其 基本 
思想 是 ， 与 场景 中 起 搬 述 作用 的 单个 量度 相 比 ， 场 景 的 重要 特性 通常 变 
化 得 非常 绥 慢 。 例 如 ， 在 计算 机 视 沉 中， 单个 像 系 值 可 以 非常 快速 地 改 
让 。 如 果 斑 怠 从 左 到 右 移 动 穿 过 图 像 并 且 它 的 条 纹 罕 过 对 应 的 像 系 时 ， 
该 像素 将 迅速 从 黑色 变 为 日 色 ， 并 再 次 恢复 成 黑色 。 通 过 比较 ， 指 示 斑 
与 是 售 在 图 像 中 的 特征 将 不 发生 改变 ， 并 且 描 述 斑马 位 置 的 特征 将 缓慢 
地 改变 。 因 此 ， 我 们 可 能 布 望 将 模型 正则 化 ， 从 而 能 够 学 习 到 那些 随时 
间 变 化 较为 缓慢 的 特征 。 


慢性 原则 早 于 慢 特 征 分 析 ， 并 已 被 应 用 于 各 种 模型 (Hinton，1989; 
Földiák, 1989; Mobahi et al. , 2009; Bergstra and Bengio, 2009) . — 
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其 中 入 十 确 定 慢 度 正则 化 强度 的 超 参 数 项 ，t 十 样本 时 间 序 列 的 索引 ,ff 是 
需要 正则 化 的 特征 提取 器 ，L 是 测量 f( xO) Ma OY ) 之 间 的 距离 的 
损失 函数 。 工 的 一 个 常见 选择 是 均 方 误差 。 


慢 特 征 分 析 古 慢性 原则 中 一 个 特 列 融 效 的 应 用 。 由 于 它 被 应 用 于 线性 特 
征 提取 器 ， 并 且 可 以 通过 闭 式 解 训 练 ， 所 以 它 是 高 效 鸭 。 像 ICA 的 一 些 


变种 一 样 ，SFA 本 喘 并 不 是 生成 模型 ， 只 是 在 输入 空间 和 特征 空间 之 间 
定义 了 一 个 线性 映射 ， 但 是 没有 定义 特征 空间 的 先 验 ， 因 此 没有 在 输入 
空间 上 施加 分 布 p(Cx )。 


SFA 算 法 (Wiskott and Sejnowski, 2002) 先 将 f( x ;的 定义 为 线性 变换 ， 
然后 求解 如 下 优化 问题 : 


min E;(f (“+”); = feng" (13.8) 
并 且 满 足下 面 的 约束 : 

E f(t) =0 (13.9) 
以 及 

E.[f(2™)?] =1 (13.10) 


学 习 特 征 具 有 和 零 均 值 的 约束 对 于 使 问题 具有 唯一 解 是 必要 的 ， 人 否则 我 们 
可 以 癌 所 有 特征 值 汶 加 一 个 第 数 ， 并 获得 具有 相等 怪 度 目标 值 的 不 同 
解 。 特 征 上 只 有 单位 方 考 的 约束 对 于 防止 所 有 特征 趋 近 于 0 的 病态 解 是 必 
要 的 。 与 PCA 关 似 ，SFA 特 征 是 有 序 的 ， 其 中 学 习 第 一 特征 是 最 慢 的 。 
要 学 习 多 个 特征 ， 我 们 还 必须 添加 约束 


wer Elf(e™)fle),] =0 (13.11) 


这 要 求学 习 的 特征 必须 彼此 线性 去 相关 。 没 有 这 个 约束 ， 所 有 和 学习 到 的 
特征 将 简单 地 捕获 一 个 最 慢 的 信号 。 可 以 想象 使 用 其 他 机 制 ， 如 最 小 化 
重 构 误差 ， 也 可 以 迫使 特征 多 样 化 。 但 是 由 于 SFA 特 征 的 线性 ， 这 种 去 
ae 只 能 得 到 一 种 简单 的 解 。SFA 问 题 可 以 通过 线性 代数 软件 获得 
闭 式 解 。 


在 运行 SFA 之 前 ，SFA 通 各 通过 对 x 使 用 非 线 性 的 基 扩 元 来 学 习 非 线性 
特征 。 例 如 ， 通 利用 x 的 三 次 基 扩 充 来 代 丛 原来 的 x ， 得 到 一 个 包含 所 
Ax, x; 的 回 量 。 由 此 ， 我 们 可 以 通过 反复 地 和 学习 一 个 线性 SFA 特 征 提取 
种， 对 其 输出 应 用 非 线性 基 扩 展 ， 然 后 在 该 扩展 之 上 学 习 万 一 个 线性 
SFA 特 征 提取 器 的 方式 来 组 合 线性 SFA 模 块 ， 从 而 学 习 深 度 非 线性 慢 特 
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学 习 到 的 特征 与 V1 皮层 中 那些 复 林 细胞 的 特征 有 许多 共同 特性 (Berkes 
and Wiskott, 2005) 。 当 在 计算 机 泻 染 的 3D 环 境内 随机 运动 的 视频 上 训 
练 时 ， 深 上 度 SFA 模 型 能 够 学 习 的 特征 与 大 女 脑 中 用 于 导航 的 神经 元 学 到 
的 特征 有 许多 共同 特性 (Franzius et al. , 2007) 。 因 此 从 生物 学 角度 上 
来 说 SFA 是 一 个 合理 的 、 有 依据 的 模型 。 


SFA 的 一 个 主要 优点 是 ， 即 使 在 深度 非 线性 条 件 下 ， 它 依然 能 够 在 理论 
上 预测 SFA 能 够 学 习 哪些 特征 。 为 了 做 出 这 样 的 理论 预测 ， 必 须知 道 天 
于 配置 空间 的 环境 动力 〈 例 如 ， 在 3D 演 染 环 境 中 随机 运动 的 例子 中 ， 
理论 分 析 是 从 相机 位 置 、 速 度 的 概率 分 布 中 入 手 的 ) 。 己 知 潜在 因子 如 
何 改变 的 情况 下 ， 我 们 能 够 通过 理论 分 析 解 出 表达 这 些 因 子 的 最 佳 函 
数 。 在 实践 中 ， 基 于 企 拟 数据 的 实验 上 ， 使 用 深度 SFA 似 乎 能 够 恢复 理 
论 预 负 的 函数 。 相 比 之 下 ， 在 其 他 学 习 算 法 中 ， 人 代价 函数 高 度 依赖 于 特 
定 像 系 全 ， 使 得 难以 确定 模型 将 学 习 到 什么 特征 。 


RPE SFA ZA FS) FS ET A I A RAST RPE (Franzius 
et al. , 2008) 。 到 目前 为 止 ， 慢 性 原则 尚未 成 为 任何 最 先进 应 用 的 基 
础 。 完 葛 是 什么 因 系 限制 了 其 性 能 仍 有 待 研究。 我 们 推测 ， 或 许 慢 上 度 先 
验 太 过 强势 ， 并 且 最 好 这 加 这 样 一 个 先 验 使 得 当前 时 间 步 到 下 一 个 时 间 
步 的 预测 更 加 容易 ， 而 不 是 加 一 个 先 验 使 得 特征 近似 为 一 个 津 数 。 对 象 
的 位 置 是 一 个 有 用 的 特征 ， 无 论 对 象 的 速 上 度 是 局 还 是 低 。 但 慢性 原则 到 
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13.4 稀 牙 编码 


稀疏 编码 (sparse coding) (Olshausen and Field, 1996) 是 一 个 线性 因 
于 模型 ， 已 作为 一 种 无 监 否 特征 学 习 和 特征 提取 机 制 得 到 了 广泛 研究 。 
PERO, ANTE Ar RNS” ce Fa TE ZR PET h EERE, M Pei 
建 模 ?是 指 设 计 和 学 习 模 型 的 过 程 ， 但 是 通 第 这 两 个 概念 都 可 以 用 术 
Ta Pr AWS” FHL o 


像 大 多 数 其 他 线性 因子 模型 一 样 ， 它 使 用 了 线性 的 解码 器 加 上 噪声 的 方 
式 获 得 一 个 x 的 重 构 ， 就 像 式 13.2) 描述 的 一 样 。 更 具体 地 说 ， 稀 下 C 
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plx |h)=N(ax; Wh +b, 3D (13.12) 


ay Ai p( h ) 通 党 选取 为 一 个 峰值 很 尖锐 且 接 近 0 的 分 布 (Olshausen and 
Field, 1996) 。 第 见 的 选择 包括 可 分 解 的 Laplace、Cauchy 或 者 可 分 解 
的 Student-t 分 布 。 例 如 ， 以 稀 玻 惩 如 系数 和 为 参数 的 Laplace 先 验 可 以 表 
不 为 


2 入 i 
p(h;) = Laplace(h;; 0, 7) = ao (13.13) 


相应 地 ，Student-t 完 验 分 布 可 以 表示 为 
l 


2 十 工 


— (13.14) 
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定编 码 的 情况 下 更 好 地 重 构 数据 ， 训 练 过 程 在 编码 数据 和 训练 解码 器 之 
间 交 恶 进行 。 稍 后 在 第 19.3 节 中 ， 这 种 方法 将 极 进 一 步 证 明 为 是 解决 最 
大 似 然 问题 的 一 种 通用 的 近似 方法 。 


对 于 诸如 PCA 的 模型 ， 我 们 已 经 看 到 使 用 了 预测 h 的 参数 化 的 编码 帮 函 
数 ， 并 且 该 函数 仅 包 丘 滋 以 权重 矩阵 。 牧 蕊 编码 中 的 纺 但 礁 个 是 参数 化 
的 编码 右 。 相 反 ， 编 公费 是 一 个 优化 拭 法 ， 在 这 个 优化 问题 中 ， 我 们 寻 
找 日 个 最 可 能 的 编码 值 : 


K = Fw) = i p(h | x) (13.15) 


“EA sk (13.13) MA (13.12) ， 我 们 得 到 如 下 的 优化 问题 : 
ens p(h | a) (13.16) 
= mamar log p(h | a) (13.17) 


= pron Mlhlli + Bila 一 W hlj (13.18) 


其 中 ， 我 们 扔 挥 了 与 h 无 天 的 项 ， 并 除 以 一 个 正 的 缩放 因 了 于 来 简化 表 
IK 


由 于 在 h 上 施加 L t woe, KS Eo 〔〈 详 见 第 7.1.2 
mig 
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在 此 优化 问题 的 作用 与 类 似 ， 没 有 必要 使 用 两 个 超 参 数 。 原 则 上 ， 我 
们 还 可 以 将 B 作 为 檬 型 的 参数 ， 并 学 习 它 。 我 们 在 这 里 已 经 放弃 了 一 些 
不 依赖 于 h 但 依赖 于 B 的 项 。 要 学 习 B， 必 须 包 含 这 些 项 ， 否 则 B 将 退化 
为 0。 


不 是 所 有 的 稀 玩 编码 方法 部 显 式 地 构建 了 一 个 p( h ) 和 一 个 p(x | hh). 
通 名 我 们 只 是 对 学 习 一 个 市 有 激活 值 的 特征 的 字典 感 兴趣 ， 当 特征 是 由 
这 个 推 产 过程 提 取 时 ， 这 个 激活 信 通 为 0。 


如 果 我 们 从 Laplace 先 验 中 采样 h ，h 的 元 素 实 际 上 为 0 是 一 个 零 概 率 事 
件 。 生 成 檬 型 本 映 并 不 稀 玩 ， 只 有 特征 提取 上 右 是 稀 下 的 。Goodfellow et 
al. 《2013f) 摘 述 了 不 同 模型 族 中 的 近似 推 亲 ， 如 人 尖峰 和 平板 稀 惑 编 但 
模型 ， 其 中 先 验 的 样本 通常 包含 许多 真正 的 0。 


与 非 参 数 编码 霹 结 合 的 稀 芯 编码 方法 原则 上 可 以 比 任何 特定 的 参数 化 编 
码 二 更 好 地 最 小 化 重 构 误 兰 和 对 数 先 验 的 组 合 。 另 一 个 优点 是 编码 需 没 
有 沁 化 误 到 。 参 数 化 的 编码 颖 必须 泛 化 地 学 习 如 何 将 x PROB h 。 对 于 
与 训练 数据 基 异 很 大 的 异常 x ， 所 学 习 的 参数 化 编码 需 可 能 无 法 找到 对 
应 精确 香 构 或 稀 跑 的 编码 六。 对 于 稀 焉 编码 模型 的 绝 大 多 数 形 式 ， 推 呆 
问题 是 同 的 ， 优 化 过 程 总 能 找到 最 优 编码 (除非 出 现 退 化 的 情况 ， 例 如 
重复 的 权重 同 量 ) 。 显 然 ， 稀 玩 和 重 构 成 本 仍然 可 以 在 不 熟悉 的 点 上 
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可 以 得 到 更 好 的 泛 化 能 力 。Coates and Ng (2011) 证 明了 在 对 象 识别 任 
务 中 稀 朴 编 权 特 征 比 基于 参数 化 的 编码 右 〈 线 性 -sigmoid 目 编码 磊 ) 的 
特征 拥有 更 好 的 泛 化 能 力 。 受 他 们 的 工作 局 发 ，Goodfellow et al. 
(2013f) 表明 一 种 稀 牙 编码 的 变 体 在 标签 极 少 《每 类 20 个 或 更 少 标 
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AEB BY Fin ak WY ER ee FEZ FE x 的 情况 下 需要 大 量 的 时 间 来 计算 h 
， 因 为 非 参 数 方法 需要 运行 迭代 算法 。 在 第 14 半 中 讲 到 的 参数 化 自 编 码 
复方 法 仅 使 用 固定 数量 的 层 ， 通 毅 只 有 一 层 。 另 一 个 缺点 是 它 不 直接 通 
S FERMI AEAT A EE SAER RER H Fe H T AA 
PVK, ZAE EA OT ET A A. MIFE 
似 导 数 的 稀疏 编码 模型 的 修改 版 本 确实 存在 但 未 被 广泛 使 用 〈Bagnell 

and Bradley, 2009) 。 
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会 及 生 这 种 迟 况 。 这 种 现象 友 生 的 原因 是 每 个 单独 的 特征 可 以 很 好 地 被 
学 习 到 ， 但 是 隐 藏 编码 值 的 因 了 于 先 验 会 导致 模型 包括 每 个 生成 样本 中 所 
有 特征 的 随机 子 集 。 这 促使 人 们 开 友 更 深 的 模型 ， 可 以 在 其 中 最 深 的 编 
但 层 施加 一 个 非 因 于 分 布 ， 与 此 同时 也 在 开发 一 些 复杂 的 浅 度 模型 。 
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图 13.2 RIEMPIRE a AS OE FEMINIST 2 Ha Se UI AR A PE A. CA) 这 个 模型 中 的 
FERMY AAA AMER AK. SIR GR, BUNA EU ATAU aR. A) 这 个 模型 的 权 
重 癌 量 已 经 学 习 到 了 如 何 表 示 笔 迹 ， 有 时 候 还 能 写 完 整 的 数字 。 因 此 这 个 模型 也 学 习 到 了 有 用 
的 特征 。 问 题 在 于 特征 的 因子 先 验 会 导致 特征 子 集 合 随 机 的 组 合 。 一 些 这 样 的 子 集 能 够 合成 可 
识别 的 MNIST 集 上 的 数字 。 这 也 促进 了 拥有 更 强大 潜在 编码 分 布 的 生成 模型 的 发 展 。 此 图 经 
Goodfellow etal. (2013f) 人 允许 转载 


13.5 ”PCA 的 流 形 解释 
线性 因子 模型 ， 包 括 PCA 和 因子 分 析 ， 可 以 理解 为 学 习 一 个 流 形 


(Hinton et al. , 1997) 。 我 们 可 以 将 概率 PCA 定 义 为 高 概率 的 薄饼 状 
区 域 ， 即 一 个 高 斯 分 布 ， 沿 着 菏 些 轴 非 常 罕 ， 就 像 湾 人 饼 沿 着 其 王 直 轴 非 
常平 坦 ， 但 沿 着 其 他 轴 是 细 长 的 ， 正 如 薄饼 在 其 水 平 轴 方向 是 很 宽 的 一 
样 。 图 13.3 解 释 了 这 种 现象 。PCA 可 以 理解 为 将 该 注 饼 与 更 高 维 空间 中 
的 线性 流 形 对 准 。 这 种 解释 不 仪 适用 于 传统 PCA， 而 且 适 用 于 学 习 和 矩阵 
W AL V 的 任何 线性 目 编 码 右 ， 其 目的 是 使 重 构 的 x 尽 可 能 接近 于 原始 
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图 13.3 平坦 的 高 斯 能 够 描述 一 个 低 维 流 形 附近 的 概率 密度 。 此 图 表示 了 “ 流 形 平面 * 上 “ 馅 饼 ” 的 
上 半 部 分 ， 并 且 这 个 平面 穿 过 了 馅 饼 的 中 心 。 正 交 于 流 形 方向 〈 指 向 平面 外 的 箭头 方向 ) 的 广 
差 非常 小 ， 可 以 被 视 作 * 噪 声 *， 其 他 方向 〈 平 面 内 的 箭头 ) 的 方差 则 很 大 ， 对 应 了 “信号 ”以 及 
降 维 数据 的 坐标 系统 


mila eA AY 


h = f(a)= W'(z-— p) (13.19) 





hae Tb EDA RAEN o Amita ARORA, MA M itr AE 
构 : 


#=g(h)=b+Vh (13.20) 


HES RME IRAE 


Elllz 一 多 | (13.21) 


的 线性 编码 器 和 解码 器 的 选择 对 应 着 了 三 wW, u = b= Ela], w 
的 列 形 成 一 组 标准 正 交 基 ， 这 组 基 生 成 的 子 空间 与 协 方 兰 矩 阵 C 


C =El(a — u)(z — p)"] (13.22) 


的 主 特征 向 量 所 生成 的 子 空间 相同 。 在 PCA 中 ， W 的 列 是 按照 对 应 特 
征 值 《其 全 部 是 实数 和 非 负 数 ) 幅度 大 小 排序 所 对 应 的 特征 癌 量 。 


我 们 还 可 以 发 现 C 的 特征 值 Xi 对 应 了 x 在 特征 向 量 v 忆 方向 上 的 方差 。 
MmRxeERD, he Past Hiid<p, W GEER, b, V 
，W 的 情况 下 ) meet) BEM Zee 

D 


min E|||¢ — #||?7]= X A (13.23) 
i=d+1 


因此 ， 如 有 果 协 方 过 矩阵 的 秩 为 4， 则 特征 值 M g 到 An ABAO, FEHEM 
RAN. 

Ab, RITA P DER ak Ae By WS 7E 28 ETE ASEM W 的 情况 下 最 
Kt hscARW AA, Ne) EKIRAR IRIE o 

从 茶 种 程度 上 说 ， 线 性 因子 模型 是 最 简单 的 生成 模型 和 学 习 数 据 表 示 的 
最 人 简 时 模型。 许多 模型 如 线性 分 类 右 和 线性 回归 模型 可 以 扩展 到 深 民 前 
众 网 络 ， 而 这 些 线性 因子 模型 可 以 扩展 到 目 编 码 磊 网 络 和 深度 概 深 模 
型 ， 它 们 可 以 执行 相同 任务 但 具有 更 强大 和 更 灵活 的 模型 族 。 


(1) 第 3.8 下 讨论 了 不 相关 变量 和 独立 变量 之 间 的 差异 。 
AA bawas > og 
P14% Hmi as 


目 编码 器 。 (autoencoder) 是 神经 网 络 的 一 种 ， 经 过 训练 后 能 答 试 将 输 
入 复制 到 输出 。 目 编码 需 ”内 部 有 一 个 隐 蔚 导 h ， 可 以 产生 编码 


(code) 表示 输入 。 该 网 络 可 以 看 作 由 两 部 分 组 成 : “Sea h =f 

x ) 表 示 的 编码 费 和 一 个 生成 午 构 的 解码 右 r 二 g( h )。 图 14.1 展 示 了 这 种 
架构 。 如 果 一 个 自 编 码 器 只 是 简单 地 学 会 将 处 处 设置 为 g({f( x ))= x, Ap 
么 这 个 自 编 码 器 束 没 什么 特别 的 用 处 。 相 反 ， 我 们 不 应 该 将 和 白 编 码 器 设 
计 成 输入 到 输出 完全 相等 。 这 通常 需要 同 目 编码 右 强 加 一 些 约束 ， 使 它 
只 能 近似 地 复制 ， 并 只 能 复制 与 训练 数据 相似 的 输入 。 这 些 约束 强制 模 
OE RE S 
JA HIFI. 


AR E Si 5 are a ar AEA ETE) L A P HI E RK TE 
三 为 随机 映射 p encoder ( h | x ) 和 P decoder (x | h Jo 


ATEH, A i at SY AE: A Ea AS S RR — a 
(LeCun, 1987; Bourlard and Kamp, 1988; Hinton and Zemel, 
1994) . (ER H ahs as OA T EERE o ER, oat at Se 
Ar EIRA FH AR AS A ia i BE SERRA BT, BTA ES 
220i tam SAAT. Aaah as A] A aE BU oe 2 A, HEL 
EH See AT) A ANE AT UZ, ES BEA Dae RE BBR CCH 
度 基 于 反 回 传播 计算 ) o AETR, Se t AY D5 
再 循环 (recirculation) 训练 (Hinton and McClelland, 1988) 。 这 种 学 
习 算 法 基于 比较 原始 输入 的 激活 和 重 构 输入 的 激活 。 相 比 反 向 传播 算 
法 ， 有 再 循环 算法 更 具 生 物 学 意义 ， 但 很 少 用 于 机 器 学 习 应 用 。 





图 14.1 目 编码 右 的 一 般 结构 ， 通 过 内 部 表示 或 编码 天 将 输入 x 映射 到 输出 〈 称 为 重 构 ) ro E 
编码 右上 其 有 两 个 组 件 : ma x 映射 到 h ) 和 解码 右 g( 将 h 映 冉 到 ) 


14.1 KEK Ant as 


KAR MA OH RIT, BRINE ND RAS as AT o 
ER. RIA BE LY El is Shs A ETE AE h 获得 有 用 的 特 
HE. 


M A at ah RS HRE — PPE 2 BR il] h AEE x 小 ， 这 种 编码 
EE NH A ERE AY Et a ORAZ 5G (undercomplete) 自 编码 
堪 。 尝 习 灾 完备 的 表示 将 强制 目 编 但 需 捕 捉 训 练 数 据 中 最 显著 的 特征 。 


学 习 过 程 可 以 简单 地 摘 述 为 最 小 化 一 个 损失 函数 
L(x, g(f(x))) (14.1) 
其 中 LL 是 一 个 损失 函数 ， 惩 罚 g(f( x )) 与 x 的 差异 ， 如 均 方 误差 。 


当 人 解码 右 是 线性 的 且 L 是 均 方 误 看 ， 欠 完备 的 目 编码 融会 学 习 出 与 PCA 
相同 的 生成 子 空间 。 这 种 情况 下 ， 目 编 色 右 在 训练 来 执行 复制 任务 的 同 
时 学 到 了 训练 数据 的 主 元 子 空间 。 


AEC, MAJER TE nta ar BB) OETA PE APP AS a PR Aigh] in a BE T 
>] tH BE SHEN PCASFZR PETE) o DEE UN ARABS ais A HA OS ei CY 
WANA, Banta ety SES MSE AN BU EAA A KBE OP AY 
Aa. MEWE, BATA ARES mi EAA aE 
编 公 ， 但 它 上 共有 一 个 非常 强大 的 非 线 性 编码 磊 ， 能 够 将 每 个 训练 数据 x 
几 表 示 为 编码 i。 而 解码 器 可 以 学 习 将 这 些 整 数 索引 映射 回 特定 训练 样本 
的 值 。 这 种 特定 情形 不 会 在 实际 迟 况 中 友 生 ， 但 它 消 区 地 说 明 ， 如 来 目 
编码 融 的 容量 太 大 ， 那 训练 来 执行 复制 任务 的 目 编码 规 可 能 无 法 学 习 到 
数据 集 的 任何 有 用 信息 。 


14.2 ”正则 自 编 码 器 
编码 维 数 小 于 输入 维 数 的 欠 完 备 自 编码 器 可 以 学 习 数 据 分 布 最 显著 的 特 


fE. BAN GARAE, WRAP RRB aise AW Ae, EAN He El 
任何 有 用 的 信息 。 


如 末 隐 天 编 但 的 维 数 允许 与 输入 相等 ， 或 隐 蔚 编 但 维 数 大 于 输入 的 过 完 
# (overcomplete) 情况 下 ， 会 有 发生 类 似 的 问题 。 在 这 些 情况 下 ， 即 使 
是 线性 编码 右 和 线性 解码 占 也 可 以 学 会 将 输入 复制 到 输出 ， 而 学 不 到 任 
何 有 关 数 据 分 布 的 有 用 信息 。 


理想 情况 下 ， 根 据 要 建 模 的 数据 分 布 的 复 林 性， 选择 合适 的 编码 维 数 和 
编码 器 、 解 码 器 容量 ， 就 可 以 成 功 训练 任意 架构 的 自 编码 器 。 正 则 自 编 
Wate HIRE AE J o LE VU H Sin aE A ED tie SK R CY DA i Si Bk Ad SO 
AEE Ba SRE a AN SS HEHE) -mAAR ENEH RE AI SS ait 
APN as VA Be JS WS Si SAE BOO PIR ill ik AS) A eo EE PE ELS PEAS ~ 
LEAN YJ FBLA Bey IRE BT AR A SS PE E. BU AEE AY ZS eK Bl EA 
TIC INTE ea, PME Ae ee HY LE J H nS a V9 2K BE 
从 数据 中 学 到 一 些 关 于 数据 分 布 的 有 用 信息 。 


除了 这 里 所 摘 述 的 方法 《正则 化 目 编码 堪 最 目 然 的 解释 ) ， 几 乎 任何 补 
有 淤 变 量 并 配 有 一 个 推断 过 程 (计算 给 定 输 入 的 潜在 表示 ) 的 生成 模 

型 ， 都 可 以 看 作 目 编码 右 的 一 种 特殊 形式 。 强 调 与 和 目 编 码 绅 联系 的 两 个 
和 后 成 式 建 模 方法 是 Helmholtz 机 (Hinton et al. , 1995b) 的 衍生 模型 ， 如 
变 分 自 编 码 嚣 (第 20.10.3 市 ) 和 生成 随机 网 络 〈 第 20.12 节 ) 。 这 些 变 

P CRITE) 目 编 僻 左 能 够 学 习 出 高 容量 且 过 完备 的 模型 ， 进 而 发 现 输 
入 数据 中 有 用 的 结构 信息 ， 并 且 也 无 须 对 模型 进行 正则 化 。 这 些 编码 显 
然 是 有 用 的 ， 因 为 这 些 模型 被 训练 为 近似 训练 数据 的 概率 分 布 而 不 是 将 
输入 复制 到 输出 。 


14.2.1 FA A ao ah 
稀疏 自 编码 器 简单 地 在 训练 时 结合 编码 层 的 稀疏 惩罚 Q( h ) 和 重 构 误 


L(x, g(f(#))) + Qh) (14.2) 


其 中 g(h eho as fit, Wa h esas ah, BU h 二 f(x )。 


Bin Bit A mi ia RRE, MEH TAROT SEIN EDS o BABE 
WU HER) B ini iS ei Vs ZS BR | RAE REIRA PE» TD AN ce Pad ES AE 
STA PA BL. PART CUI» AAT PAY rie it ETH IE tH ES FY DA 
能 学 习 有 用 特征 的 模型 。 


我 们 可 以 简单 地 将 惩 寞 项 Q( Ah ) 视 为 加 到 本 人 馈 网 络 的 正则 项 ， 这 个 前 馈 
网 络 的 主要 任务 是 将 输入 复制 到 输出 (无 监督 学 习 的 目标 )， 并 尺 可 能 
地 根据 这 些 稀 蕊 特征 执行 一 些 监 督学 习 任务 〈 根 据 监 督学 习 的 目标 ) 。 

不 像 其 他 正则 项 如 权重 衰减 一 一 没有 下 观 的 贝 叶 斯 解释 。 如 第 5.6.1 市 摘 
述 ， 权 重 误 减 和 其 他 正则 惩 鹿 可 以 被 解 释 为 一 个 MAP 近 似 贝 叶 斯 推 师 ， 

正则 化 的 惩罚 对 应 于 模型 参数 的 先 验 概率 分 布 。 这 种 观点 认为 ， 正 则 化 
的 最 大 似 然 对 应 最 大 化 p(06 | x )， 相 当 于 最 大 化 log p(x | 0)+logp( 昌 
)。log p(x | 0 ) 即 通常 的 数据 似 然 项 ， 参 数 的 对 数 先 验 项 log p 0 ) 则 包 
含 了 对 0 特定 值 的 偏好 。 这 种 观点 在 第 5.6 节 有 所 描述 。 正 则 目 编 码 右 
不 适用 这 样 的 解释 是 因为 正则 项 取决 于 数据 ， 因 此 根据 定义 上 “从 文字 
的 正式 意义 ) 来 说 ， 它 不 是 一 个 先 验 。 虽 然 如 此 ， 我 们 仍 可 以 认为 这 些 
正则 项 隐 式 地 表达 了 对 函数 的 偏好 。 


我 们 可 以 认为 整个 稀 瑰 日 编码 器 框 染 是 对 币 有 潜 和 变量 的 生成 模型 的 近似 
最 大 似 然 训练 ， 而 不 将 稀 焉 惩 避 视 为 复制 任务 的 正则 化 。 假 如 我 们 有 一 
in BY ULAR x MERE h 的 模型 ， 且 具有 明确 的 联合 分 布 p via (x 
) h )=p model ( h )p model ( x | h ) 。 我 们 将 p model ( h LARA TRS 
的 先 验 分 布 ， 表 示 模 型 看 到 x 的 信念 先 验 。 这 与 我 们 之 前 使 用 “ 先 验 ”的 
方式 人 不同， 之 前 指 分 布 p( 0 ) 在 我 们 看 到 数据 前 束 对 模型 参数 的 先 验 进行 
Ay. XT BAA ZA eR WAY Oo} AREY 


log Preeti a — log X., Satai Aa x ) (14.3) 
h 





RATE AAN Bae EA eM ES APA PK 
FATS Fn hE OA (813.40) ， 但 h 是 参数 编码 大 的 输出 ， 而 
不 是 从 优化 结果 推断 出 的 最 可 能 的 nh。 从 这 个 角度 来 看 ， 我 们 根据 这 个 
选择 的 h， 最 大 化 如 下 : 


log pnoasi(h, a) = log Diode) 中 log Denedal at | h) (14.4) 


log P mode ( h RER ME R o YWLaplace7c i, 


. 
Bnodel(hs ) =I D 5 (14.5) 


TIM PAE EET RON ACN AZT ER i, RIIE 
Q(h) =A X [hil (14.6) 


A 
— log Pmoaei(h) = 》 (AIhi| — log 5) = 2(h) + const (14.7) 


OA UA PRA WIT AS BL, AUC A EAN 
Mn Se SA. FL th Gr Student-t5 65a th RES PE. Me HE 

FELD model ( h FARRER AAEE, BEE TI SEEM ET 
EWM. AMM aM BAL Se ee) o Pe ES UAE Sin 
fas SONAL: 这 是 近似 训练 生成 模型 的 一 种 途径 。 这 也 给 出 了 为 
什么 目 编 但 规 学 到 的 特征 是 有 用 的 万 一 个 解释 : 它们 描述 的 浴 变 量 可 以 
解释 输入 。 


稀疏 自 编 码 器 的 早期 工作 (Ranzato et al. , 2007a, 2008) 探讨 了 各 种 
形式 的 稀 牙 性， 并 提出 eel r Z 项 (将 最 大 似 然 应 用 到 无 同 概 
率 模型 2 人 T ) — 7 P ( i bp ) 时 产生 ) 之 间 的 联系 。 这 个 想 
法 是 最 小 化 log Z 防 止 概率 模型 处 处 具有 高 概率 ， 同 理 强 制 黎 焉 可 以 防止 
目 编码 需 处 处 具有 低 的 重 构 误 竺 。 这 种 情况 下 ， 这 种 联系 是 对 通用 机 制 
的 直观 理解 而 不 是 数学 上 的 对 应 。 在 数学 上 更 容 匈 解释 稀 臣 惩 划 对 应 于 
有 问 模 型 p oi h )p model ( x | h ) 中 的 log p modd | h ) 。 


Glorot et al. (2011b) 提出 了 一 种 在 稀 距 《和 去 噪 ) Hima h 中 实 
现 真 正 为 零 的 方式 。 访 想法 是 使 用 整流 线性 单元 产生 编 但 层 。 基 于 将 表 
示 真 正 推 癌 零 OAE) 的 先 验 ， 可 以 间接 控制 表示 中 零 的 平均 
数量 。 


14.2.2 ”去 品目 编码 规 


除了 加 代价 函数 增加 一 个 惩 姑 项 ， 我 们 也 可 以 通过 改变 重 构 误 大 项 来 获 
得 一 个 能 学 到 有 用 信息 的 目 编码 右 。 


TEER BSS ate MELA F H tn 
L(x, 9(f(#))) (14.8) 


其 中 LL 是 一 个 损失 函数 ， 惩 罚 g(f( x )) 与 x 的 差异 ， 如 它们 彼此 差异 的 世 “ 
范 数 。 如 果 模 型 被 赋予 过 大 的 容量 ，L 仅 仅 使 得 gsf 学 成 一 个 恒 等 函 数 。 


KA, Ale A aie (denoising autoencoder, DAE) 最 小 化 
L(x, 9(f(£))) (14.9) 


KHP Fe LH AH FS AA x AAS. KEE B G miaa ZF IX 
些 损 坏 ， 而 不 是 简单 地 复制 输入 。 

Alain and Bengio (2013) 和 Bengio et al. (2013c) 指出 去 噪 训练 过 程 强 
制 f 和 g 隐 云 地 学 习 p gaa (xD) 的 结构 。 因 此 ， 去 噪 目 编 但 需 也 是 一 个 通过 
最 小 化 重 构 误 甜 获 取 有 用 特性 的 例 于 。 这 也 是 将 过 完备 、 高 容量 的 模型 
用 作 目 编码 器 的 一 个 例子 只 要 小 心 防止 这 些 模型 仅仅 学 习 一 个 恒 等 
图 数 。 去 噪 目 编码 器 将 在 第 14.5 给 出 更 多 细节。 


14.2.3 ET) Saye AEM 
I — ENJE É ap BS i SAS J (ate FE A SADR BS E 





Q, 

L(x, 9(f(@))) + O(h, x) (14.10) 
但 @ 的 形式 不 同 : 

0 而 一 > [Vei] (14.11) 


这 迫使 模型 学 习 一 个 在 x 变化 小 时 目标 也 没有 太 大 变化 的 函数 。 因 为 这 
个 惩罚 只 对 训练 数据 适用 ， 它 迫使 自 编码 器 学 习 可 以 反映 训练 数据 分 布 
信息 的 特征 。 


这 样 正则 化 的 目 编码 需 被 称 为 收缩 目 编码 需 Ccontractive autoencoder, 


CAE) 。 这 种 方法 与 去 噪 自 编码 器 、 流 形 学 习 和 概率 模型 存在 一 定理 论 
联系 。 收 缩 目 编 但 天 将 在 第 14.7 记 更 详 细 地 摘 述 。 


14.3 ”表示 能 力 、 层 的 大 小 和 深度 


自 编码 器 通常 只 有 单 层 的 编码 器 和 解码 器 ， 但 这 不 是 必然 的 。 实 际 上 深 
度 编码 器 和 解码 器 能 提供 更 多 优势 。 


回忆 第 6.4.1T， 其 中 担 到 加 深 前 饥 网 络 有 很 多 优势 。 这 些 优势 也 同样 适 
HTA ANEETA. Sh, miar are H AR 
re A Tt 2, AE AAAA e eA H MAREE E RIEA. 


万 能 近似 定理 保证 至 少 有 一 层 隐藏 层 且 隐藏 单元 足够 多 的 前 馈 神经 网 络 
能 以 任意 精度 近似 任意 函数 〈 在 很 大 范围 里 ) ， 这 是 非 平凡 深度 〈 至 少 
有 一 层 隐藏 层 ) 的 一 个 主要 优点 。 这 意味 着 具有 单 隐藏 层 的 自 编码 器 在 
数据 域内 能 表示 任意 近似 数据 的 恒 等 函 数 。 但 是 ， 从 输入 到 编码 的 映射 
是 浅 层 的 。 这 意味 着 我 们 不 能 任意 添加 约束 ， 比 如 约束 编码 稀疏 。 深 度 
自 编码 器 〈 编 码 器 至 少 包 含 一 层 额外 隐藏 屋 ) 在 给 定 足 够 多 的 隐藏 单元 
的 情况 下 ， 能 以 任意 精度 近似 任何 从 输入 到 编码 的 映射 。 

深度 可 以 指数 地 降低 表示 某 些 函 数 的 计算 成 本 。 深 度 也 能 指数 地 减少 学 
习 一 些 函 数 所 需 的 训练 数据 量 。 读 者 可 以 参考 第 6.4.1 节 巩固 深度 在 前 馈 
网 络 中 的 优势 。 


实验 中 ， 深 度 日 编码 占 能 比 相应 的 浅 层 或 线性 日 编码 紫 产 生 更 好 的 压 颖 
效率 (Hinton and Salakhutdinov, 2006) . 


训练 深度 自 编码 器 的 普遍 策略 是 训练 一 堆 浅 层 的 自 编码 器 来 贪心 地 预 训 
练 相应 的 深度 架构 。 所 以 即使 最 终 目 标 是 训练 深度 自 编码 器 ， 我 们 也 经 
常会 遇 到 浅 层 自 编码 器 。 

14.4 ”随机 编码 器 和 解码 器 


自 编码 器 本 质 上 是 一 个 前 馈 网 络 ， 可 以 使 用 与 传统 前 馈 网 络 相 同 的 损失 
国 数 和 输出 单元 。 


YO 6.2.2.457 PHA, Verb A A AY E Po Al AR pay Ae id eS E 
定义 一 个 输出 分 布 p(y | x ) 并 最 小 化 负 对 数 似 然 -log p(y | x )。 在 这 
种 情况 下 ，y 是 关于 目标 的 同 量 〈 如 类 标 ) 。 


FEA Sas, x 既是 输入 也 是 目标 。 然 而 ， 我 们 仍然 可 以 使 用 与 之 前 
相同 的 架构 。 给 定 一 个 隐藏 编码 h ， 我 们 可 以 认为 解码 器 提供 了 一 个 条 
件 分 布 p wodi CA | h )。 RE Be VT M-log p decoder (X | h ) 来 训 
练 目 编 但 左 。 损 失 函 数 的 有 具体 形式 视 p gecoqer 的 形式 而 定 。 束 传统 的 前 
馈 网 络 来 说 ， 如 果 x 是 实 值 的 ， 那 么 我 们 通常 使 用 线性 输出 单元 参数 化 
融 斯 分 布 的 均值 。 在 这 种 情况 下 ， 负 对 数 似 然 对 应 均 方 误 大 准则。 类 似 
th, “(Hh x 对 应 于 一 个 Bernoulli 分 布 ， 其 参数 由 sigmoid 输 出 单元 确定 
的 。 而 离散 的 X X Vsoftmax7 45 » 以 此 类 推 。 TE h 的 情况 下 ， 为 
了 便于 计算 概率 分 布 ， 和 输出 变量 通 利 被 视 为 条 件 独立 的 ， 但 一 些 技术 
NECARE) 可 以 解雇 输出 相关 的 建 模 。 

为 了 更 彻 展 地 与 我 们 之 前 了 解 到 的 前 饥 网 络 相 区 别 ， 我 们 也 可 以 将 编码 


Kt (encoding function) f( x ) 的 概念 推广 为 编码 分 布 (encoding 
distribution) P encod (h | x)， 如 图 14.2 所 示 。 


AE APY PAR RAD model (h ,x ) 定 义 一 个 随机 编码 如 


iler( h | x ) zi Podal A | a (di1) 
LI A — A BENLI a 
Pdsendes( | h) = Maod | & | h) (14.13) 





Pencader ( h| T) Pdecader ( T| h) 


图 14.2 ”随机 目 编 码 右 的 结构 ， 其 中 编码 费 和 解码 器 包括 一 些 噪声 注入 ， 而 不 是 简单 的 函数 。 
这 意味 着 可 以 将 它们 的 输出 视 为 来 目 分 布 的 采样 “对 于 编码 硕 是 p encoder(h | x) X TAEA 





JEP decoder ( X | hy) 


HS Tan RB Says ak AAR AR YO AC ee SME — — “PS ER oP A p 
mode! (X, h ) 相 容 的 条 件 分 布 。Alain etal. (2015) 指出 ， 在 保证 足够 的 
SAIPAN TOL BR, Raat as PRS eR EAA A SASK, RENE 
EM Ler ee HAZ o 
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Kik H tgs (denoising autoencoder, DAE) 是 一 类 接受 损坏 数据 作 
为 输入 ， 并 训练 来 预测 原始 未 航 损坏 数据 作为 输出 的 自 编 码 硕 。 


DAE 的 训练 过 程 如 图 14.3 所 示 。 我 们 引入 一 个 损坏 过 程 C (多 | X) ， 这 
个 条 件 分 布 代表 给 定数 据 样本 x 产生 损坏 样本 肥 、 的 概率 。 自 编码 器 则 
根据 以 下 过 程 ， 从 训练 数据 对 ( xo o O 中 学 习 重 构 分 布 


(reconstruction distribution) psconerver X | x ): 


C1) 从 训练 数据 中 采 一 个 训练 样本 x 。 
(2) MCR | xx 一 x) 采 一 个 损坏 样本 双 。 


(3) Cx 50) 作为 训练 样本 来 估计 自 编码 器 的 重 构 分 布 p econstuct ( 
x |X ) 一 Pp decoder (X | h )， 其 中 hh 是 编码 器 f(t ) 的 输出 ，p decoder 根 
据 解 码 函数 g( h ) 定 义 。 


通 第 我 们 可 以 简单 地 对 负 对 数 似 然 -log P decoder (xX | h ) 进 行 基于 梯度 法 

《如 小 批量 梯度 下 降 ) 的 近似 最 小 化 。 只 要 编码 问 是 确定 性 的 ， 去 骂 卓 
编 色 带 束 是 一 个 前 馈 网 络 ， 并 且 可 以 使 用 与 其 他 前 馈 网 络 完全 相同 的 方 
REIT IIZ 





图 14.3 ”去 噪 自 编码 器 代价 函数 的 计算 图 。 去 噪 自 编码 器 被 训练 为 从 损坏 的 版 本 -x 重 构 干 净 数 
据点 x 。 这 可 以 通过 最 小 化 损失 L=-log p decoder(x | h =A SEM, HP K 是 样本 x 名 
坏 过 程 C( | x) 后 得 到 的 损坏 版 本 。 通 常 ， 分 布 p decoder 是 因子 的 分 布 〈 平 均 参数 由 前 馈 
络 g 给 出 ) 


因此 我 们 可 以 认为 DAE 古 在 以 下 期 绷 下 进行 随机 梯度 下 降 : 
Erina es 168 Gaecoder| & | h= f(%)) (14.14) 


EH Ddata ( T ) 是 训练 数据 有 的 分 布 。 

14.5.1 得 分 估计 

得 分 匹配 (Hyvärinen, 2005a) 是 最 大 似 然 的 代 普 。 它 提供 了 概 座 分布 
的 一 致 估计 ， 促 使 模型 在 各 个 数据 点 x 上 获得 与 数据 分 布 相同 的 得 分 
(score) 。 在 这 种 情况 下 ， 得 分 是 一 个 特定 的 梯度 场 : 


Vz log p(x) (14.15) 


FT EB 18.4 EAB ef VE. MEPL E EY BS 
种 ， 理 解 学 习 log p gata 的 柳 度 场 是 学 习 p gata BUTI PP ES J o 


DAE 的 训练 准则 (条 件 高 斯 p( x | h )) 能 让 自 编码 器 学 到 能 估计 数据 
分 布 得 分 的 向 量 场 (g(f( x )- x) ， 这 是 DAE 的 一 个 重要 特性 ， 具 体 如 
图 14.4 所 示 。 


图 14.4 去 噪 自 编码 器 被 训练 为 将 损坏 的 数据 点 E 映射 回 原始 数据 点 x 。 我 们 将 训练 样本 xA 
为 位 于 低 维 流 形 〈 粗 黑 线 ) 附近 的 红 又 。 我 们 用 灰色 圆圈 表示 等 概率 的 损坏 过 程 C(x | x) 
灰色 箭头 演示 了 如 何 将 一 个 训练 样本 转换 为 经 过 此 损坏 过 程 的 样本 。 当 训练 去 噪 自 编码 器 最 小 

MPFR ||g(f(H)) 一 r ||? 的 平均 值 时 ， 重 构 g(f( He ) 估 计 

Ex zopan VC [XX | Lo G(f(Z)) 。 对 可 能 产生 K 的 原始 点 x 的 质心 进行 但 
i MAREC )- K 近 似 指向 流 形 上 最 近 的 点 。 因 此 自 编码 器 可 以 学 习 由 绿色 箭头 表示 
向 量 场 g(f( x ))- x 。 该 向 量 场 将 得 分 Vz log Pdata(Z ) 估计 为 一 个 乘 性 因子 ， 即 重 构 误差 
方 根 的 平均 


IRKA RRE MIYA RENERE KRE E E H is C 
A sigmoid jek 2 70 AG VE BP A) 的 去 噪 训练 过 程 ， 与 训练 一 类 特 
定 的 被 称 为 RBM 的 无 癌 概 率 模 型 是 等 价 的 《Vincent，2011) 。 这 关 模 
型 将 在 第 20.5.1 给 出 更 详细 的 介绍 ;对 于 现在 的 讨论 ， 我 们 只 需 知 道 
这 个 模型 能 显 式 的 给 出 p mode ( X ; 0 )。 当 RBM 使 用 去 噪 得 分 匹配 
(denoising score matching) 算法 (Kingma and LeCun, 2010a) 训练 
时 ， 它 的 学 习 算法 与 训练 对 应 的 去 品目 编码 器 是 等 价 的 。 在 一 个 确定 的 

















噪声 水 平 下 ， 正 则 化 的 得 分 匹配 不 是 一 致 舍 计 量 ， 相 反 它 会 恢复 分 布 的 
一 个 模糊 版 本 。 然 而 ， 当 噪声 水 平 趋 回 于 0 且 训 练 样本 数 趋同 与 无 穷 
AS, BOVERI TRE © 我们 将 会 在 第 18.5 市 更 详细 地 讨论 去 噪 得 分 区 
配 。 


目 编码 器 和 RBM 还 存在 其 他 联系 。 在 RBM 上 应 用 得 分 匹配 后 ， 其 代价 
国 数 将 等 价 于 重 构 误 莽 结合 类 似 CAE 惩 姑 的 正则 项 〈Swersky et al. , 
2011) 。Bengio and Delalleau (2009) 指出 自 编码 器 的 梯度 是 对 RBM 对 
比 散 度 训练 的 近似 。 


对 于 连续 的 x ， 高 期 损坏 和 重 构 分 布 的 去 噪 准 则 得 到 的 得 分 佑 计 适 用 于 
一 般 编 码 器 和 解码 器 的 参数 化 (Alain and Bengio, 2013) 。 这 意味 着 一 
个 使 用 平方 误差 准则 


lg(f(z)) — all” (14.16) 
和 噪声 方差 为 0“ 的 损坏 
O(& = č | x) = N(ž; u = 2,7=0°7) (14.17) 


的 通用 编码 器 -解码 器 架构 可 以 用 来 训练 估计 得 分 。 图 14.5 展 示 了 其 中 的 
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较 高 的 概率 。 回 量 场 在 估计 的 密度 函数 的 最 大 值 处 〈 在 数据 流 形 上 ) 和 密度 函数 的 最 小 值 处 都 
为 去。 例如 ， 螺 旋 臂 形成 局 部 最 大 值 役 此 连接 的 一 维 流 形 。 局 部 最 小 值 出 现在 两 个 臂 间 隐 的 中 
B. SERA ARAKERE) RAI, ERARD ERa A 
WK, FF ATER RA KS Em. H A a A EARE RY E a A ES ETA o 
EKRA AWEN TF, EWER E, MERS Já. Alain and Bengio (2013) 许可 转 
载 此 图 


一 般 情 况 下 ， 不 能 保证 重 构 函数 g(f( x )) 减 去 输入 x 后 对 应 于 东 个 函数 的 
PRE, BAND. ee HATE (Vincent, 201) 专用 于 特定 参数 
化 的 原因 (其 中 g({f( ”x Doo x) RHI PS PR SBR) 。 
Kamyshanska and Memisevic (2015) 通过 标识 一 类 特殊 的 浅 层 目 编 码 需 
KIR, Egl x D- x 对 应 于 这 个 家 族 所 有 成 员 的 一 个 得 分 ， 以 此 推广 
Vincent (2011) 的 结果 。 


目前 为 止 我 们 所 讨论 的 仅 限 于 去 品目 编 但 需 如 何 学 习 表 示 一 个 概率 分 
布 。 更 一 般 的 ， 我 们 可 能 希望 使 用 上 自 编 码 右 作为 生成 模型 ， 并 从 其 分 布 
中 进行 采样 。 这 将 在 第 20.11 节 中 讨论 。 


14.5.2 历史 展望 











采用 MLP 去 噪 的 想法 可 以 退 调 到 LeCun (1987) 和 Gallinari et al 
(1987) 的 工作 。Behnke (2001) 也 曾 使 用 循环 网 络 对 图 像 去 噪 。 在 菏 
种 意义 上 ， 云 品目 编码 器 仅仅 是 被 训练 去 噪 的 MLP。 然 而 ,“ 去 品目 编 
码 霹 ” 的 命名 指 的 不 仅仅 是 学 习 去 噪 ， 而 且 可 以 学 到 一 个 好 的 内 部 表示 
(作为 学 习 去 噪 的 副 效 用 ) 。 这 个 想法 所 出 较 晚 (Vincent et al. =, 
2008b，2010〉。 学 习 到 的 表示 可 以 被 用 来 预 训练 更 深 的 无 监督 网 络 或 
监督 网 络 。 与 稀 政 上 自 编 码 嚣 、 稀 朴 编 码 、 收 缩 自 编 码 器 等 正则 化 的 上 自 编 
伺 亏 类 似 ，DAE 的 动机 是 允许 学 习 容 量 很 高 的 编码 锅 ， 同 时 防止 在 编码 
石和 解 但 喜 学 习 一 个 无 用 的 恒 等 函 数 。 


在 引入 现代 DAE 之 前 ，Inayoshi and Kurita (2005) 探索 了 其 中 一 些 相 同 
的 方法 和 目标 。 人 他们 除了 在 监督 目标 的 情况 下 最 小 化 重 构 误差 之 外 ， 还 
在 监 叔 MLP 的 隐 玫 层 注 入 噪声 ， 通 过 引入 重 构 误 震 和 注入 噪声 提升 汉化 
能 力 。 然 而 ， 他 们 的 方法 基于 线性 编码 磊 ， 因 此 无 法 学 习 到 现代 DAE 能 
学 习 的 强大 函数 族 。 


14.6 ”使 用 目 编 码 需 学 习 流 形 


如 第 5.11.3 节 描述 ， 目 编码 奉 跟 其 他 很 多 机 融和 学 习 算法 一 样 ， 也 利用 了 
数据 集中 在 一 个 低 维 流 形 或 者 一 小 组 这 样 的 流 形 的 思想 。 其 中 一 些 机 占 
学 习 算 法 仅 能 学 习 到 在 流 形 上 表现 民 好 但 给 定 不 在 流 形 上 的 输入 会 叶 致 
异 币 的 图 数 。 目 编 但 厚 进 一 步 信 此 想法 ， 旨 在 学 习 流 形 的 结构 。 


要 了 解 目 编 但 郝 如 何 做 到 这 一 点 ， 我 们 必须 介绍 泊 形 的 一 些 重要 特性 。 


流 形 的 一 个 重要 特征 是 切 平面 (tangent plane) 的 集合 。d 维 流 形 上 的 一 
点 X ， 切 平面 由 能 张 成 流 形 上 允许 变动 的 局 部 方 同 的 d 维 基 同 量 给 出 。 
如 图 14.6 所 示 ， 这 些 局 部 方 同 决定 了 我 们 能 如 何 短 小 地 变动 x 而 保持 于 
流 形 上 。 


所 有 目 编 伍 硕 的 训练 过 程 涉及 两 种 推动 力 的 打 衷 : 
C1) 学 习 训练 样本 x 的 表示 h 使 得 x 能 通过 解 但 套 近 似 地 从 h 中 恢 


复 。 x 是 从 训练 数据 挑 出 的 这 一 事实 很 关键， 因为 这 意味 看 在 目 编码 此 
不 需要 成 功 章 构 不 属于 数据 生成 分 布下 的 输入 。 


(2) 满足 约束 或 正则 惩 弄 。 这 既 可 以 是 限制 目 编 码 硕 容量 的 架构 约 
束 ， 也 可 以 是 加 入 到 重 构 代 价 的 一 个 正则 项 。 这 些 技术 一 般 倾 问 那 些 对 
输入 较 不 敏感 的 解 。 


显然 ， 蛙 一 的 推动 力 古 无 用 的 一 一 从 它 本 里 将 输入 复制 到 输出 是 无 用 

有 的， 同样 急 略 输入 也 是 没 用 的 。 相 反 ， 两 种 推动 力 结合 是 有 用 的 ， 因 为 
它们 驱使 隐藏 的 表示 能 捕获 有 关 数 据 分 布 结构 的 信息 。 苗 要 的 原则 十， 

目 编 公 胡 必须 有 能 力 表示 音 构 训练 实例 所 十 的 变化 。 如 来 坟 数 据 生成 分 
布 集中 菲 近 一 个 低 维 流 形 ， 目 编码 帝 能 隐 式 产生 捕捉 这 个 流 形 局 部 坐标 
系 的 表示 : DE x 周围 关于 流 形 的 相 切 变化 圾 要 对 应 于 hh 二 f(x ) 中 的 变 
化 。 因 此 ， 编 码 器 学 习 从 输入 空间 x 到 表示 空间 的 映射 ， 映 射 仅 对 沿 着 
演 形 方 回 的 变化 敏感 ， 并 且 对 流 形 正 交 方 回 的 变化 不 敏感 。 


图 14.7 中 一 维 的 例子 说 明 ， 我 们 可 以 通过 构建 对 数据 点 周围 的 输入 扰动 
AUR MPR, BEIE El a ae KATIE ZI o 





图 14.6 ”正切 超 平面 概念 的 图 示 。 我 们 在 784 维 空间 中 创建 了 一 维 流 形 。 我 们 使 用 一 张 784 像 素 
的 MNIST 图 像 ， 并 通过 垂直 平移 来 转换 它 。 垂 直 平移 的 量 定 义 沿 着 一 维 流 形 的 坐标 ， 轨 迹 为 通 
过 图 像 空 间 的 弯曲 路 径 。 该 图 显示 了 沿 着 该 流 形 的 几 个 点 。 为 了 可 视 化 ， 我 们 使 用 PCA 将 流 形 
投影 到 二 维 空 间 中 。n 维 流 形 在 每 个 点 处 都 具有 n 维 切 平 面 。 该 切 平面 恰好 在 该 点 接触 流 形 ， 并 
日 在 该 点 处 平行 于 流 形 表面 。 它 定义 了 为 保持 在 流 形 上 可 以 移动 的 方 同 空 间 。 该 一 维 流 形 具 有 
单个 切线 。 我 们 在 图 中 示 出 了 一 个 点 处 的 示例 切线 ， 其 中 图 像 表 示 访 切线 方 回 在 图 像 空 间 中 是 
ee 白色 像素 表示 变 亮 的 像素 ， 黑 色 像 素 表 
示 变 上 暗 的 像素 





图 14.7 ”如 果 自 编码 器 学 习 到 对 数据 点 附近 的 小 扰动 不 变 的 重 构 函数 ， 它 就 能 捕获 数据 的 流 形 
结构 。 这 里 ， 流 形 结构 是 0 维 流 形 的 集合 。 虚 线 对 角 线 表 示 重 构 的 恒 等 函 数目 标 。 最 佳 重 构 函 数 
会 在 存在 数据 点 的 任意 处 穿 过 恒 等 函数 。 图 底部 的 水 平 箭头 表示 在 输入 空间 中 基于 箭头 的 r(x 
-x 重建 方向 向 量 ， 总 是 指向 最 近 的 “ 流 形 ” (一 维 情况 下 的 单个 数据 点 ) 。 在 数据 点 周围 ， 去 品 
自 编码 器 明确 地 尝试 将 重 构 函 数 r( x ) 的 导数 限制 为 很 小 。 收 缩 自 编码 器 的 编码 器 执行 相同 操 
作 。 虽 然 在 数据 点 周围 ， r( x ) 的 导数 被 要 求 很 小 ， 但 在 数据 点 之 间 它 可 能 会 很 大 。 数 据点 之 间 
的 空间 对 应 于 流 形 之 间 的 区 域 ， 为 将 损坏 点 映射 回流 形 ， 重 构 函 数 必须 具有 大 的 导数 


为 了 理解 目 编 码 右 可 用 于 流 形 学 习 的 原因 ， 我 们 可 以 将 目 编 码 费 和 其 他 
方法 进行 对 比 。 学 习 表 征 流 形 最 弟 见 的 是 流 形 上 (或 附近 ) 数据 点 的 表 
7X (representation) 。 对 于 特定 的 实例 ， 这 样 的 表示 也 外 称 为 舱 入 。 它 
通常 由 一 个 低 维 同 量 给 出 ， 具 有 比 这 个 流 形 的 “外 围 * 空 间 更 少 的 维 数 。 
有 些 算 法 《下 面 讨 论 的 非 参 数 流 形 学 习 算 法 ) 直接 学 习 每 个 训练 样 例 的 
租 入 ， 而 其 他 算法 学 习 更 一 般 的 映射 《有 时 被 称 为 编码 需 或 表示 卫 

AX) ， 将 周围 空间 输入 空间 ) A ERR BE A BRA o 


洲 形 学 习 大 多 专注 于 试图 捕捉 到 这 些 流 形 的 无 监督 学 习 过 程 。 最 初始 的 
学 习 非 线性 流 形 的 机 占 学 习 研 究 专 注 基 于 最 近 令 图。 (nearest neighbor 
graph) 的 非 参数 ”(non-parametric) 方 法。 该 图 中 每 个 训练 样 例 对 应 一 
个 节 护 ， 它 的 边 连接 近邻 点 对 。 如 图 14.8 所 示 ， 这 些 方法 (Schélkopf et 











al. , 1998b; Roweis and Saul, 2000; Tenenbaum etal. , 2000; Brand, 
2003b; Belkin and Niyogi, 2003a; Donoho and Grimes, 2003; 
Weinberger and Saul, 2004b; Hinton and Roweis, 2003; van der Maaten 
and Hinton, 2008) 将 每 个 证 点 与 张 成 实例 和 近邻 之 间 的 弄 问 量变 化 方 
问 的 切 平 面相 关联 。 





图 14.8” 非 参数 沈 形 学 习 过 程 构 建 的 最 近邻 图 ， 其 中 市 点 表示 训练 样本 ， 有 问 边 指示 最 近 令 大 
系 。 因 此 ， 各 种 过 程 可 以 获得 与 图 的 邻 域 相关 联 的 切 平面 以 及 将 每 个 训练 样本 与 实 值 同 量 位 置 
或 EKA (embedding〉 相 关联 的 坐标 系 。 我 们 可 以 通过 插值 将 这 种 表示 概括 为 新 的 样本 。 只 要 
样本 的 数量 大 到 足以 禾 盖 流 形 的 弯曲 和 扭转 ， 这 些 方法 工作 恨 好 。 图 片 来 自 QMUL 多 角度 人 脸 
数据 集 (Gong etal., 2000) 


全 局 坐标 系 则 可 以 通过 优化 或 求解 线性 系统 获得 。 图 14.9 展 示 了 如 何 通 
过 大 量 局 部 线性 的 类 高 斯 样 平 销 或 “ 湾 下 人 饼 ”"， 因 为 蜗 斯 块 在 切 平面 方 
问 是 局 平 的 ) 得 到 一 个 流 形 。 





然而 ，Bengio and Monperrus (2005) 指出 了 这 些 局 部 非 参 数 方 法 应 用 
于 流 形 学 习 的 根本 困难 : 如 果 尝 形 不 是 很 光 背 它们 有 许多 波峰 、 波 谷 
MAI) ， 为 覆盖 其 中 的 每 一 个 变化 ， 我 们 可 能 需要 非常 多 的 训练 样 

本 ， 导 致 没有 能 力 汉 化 到 没 见 过 的 变化 。 实 际 上 ， 这 些 方法 只 能 通过 内 
插 ， 概 括 相 邻 实 例 之 间 流 形 的 形状 。 不 壮 的 是 ，AI 回 题 中 涉及 的 流 形 可 


HEA AE Hy SARI ZA, EW Ma RIER SRE. 58 A14. 68 ih 
PASI Blo BORER OLS aA Tel Be AE “PAB x SFER 
fZ ERAN AY ANR BY] eS A rp Hs BSS MEE UCI FS NY, BARRERA 
FASE EMU AS 0 PRET Uh, ER FE PRC IE FES AR PE TR FETA 
AT fia] FAY) AR ARB AT Pe AE UI BY BSA TE. EAR a A SAR AN VR PE 
TTR Za AL 





A149 ”如 果 每 个 位 置 处 的 切 平 面 〈 见 图 14.6) 是 已 知 的 ， 则 它们 可 以 平 铺 后 形成 全 局 坐标 系 或 
密度 函数 。 每 个 局 部 块 可 以 被 认为 是 局 部 欧 几 里 德 坐 标 系 ， 或 者 是 局 部 平面 局 斯 或 “ 注 饼 ”"， 在 

与 注 饼 正 交 的 方 回 上 具有 非常 小 的 方差 而 在 定义 坐标 系 的 方 回 上 具有 非常 大 的 方差 。 这 些 局 斯 
的 混合 提供 了 估计 的 密度 函数 ， 如 流 形 中 的 Parzen 窗 口算 法 (Vincent and Bengio, 2003) 或 其 

非 局 部 的 基于 神经 网 络 的 变 体 (Bengio etal. ，2006b) 


14.7 Wa H hid as 


收缩 目 编码 器 (Rifai etal., 2011la, b) 在 编码 h 二 f(x ) 的 基础 上 添加 
STREWN, BT SBS AY REZ): 
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Q(h) =) (14.18) 














TEWMA h ) 为 平方 Frobenius 范 数 〈 元 素平 方 之 和 ) , ERP Santas 


的 函数 相关 俩 导数 的 的 Jacobian 矩 阵 。 


Ale Eat as AMC ARE Smt as VALE TE ER AR: Alain and 
Bengio (2013) 指出 在 小 高 斯 噪声 的 限制 下 ， 当 重 构 图 数 将 x PREYS r 
二 g(f( x 7 时， 去 品 重 构 误 大 与 收缩 惩 避 项 是 等 价 的 。 换 句 话 说 ， 云 品目 
编码 左 能 抵抗 小 且 有 限 的 输入 扰动 ， 而 收缩 和 目 编码 右 使 特征 提取 函数 能 
抵抗 极 小 的 输入 扰动 。 


分 类 任务 中 ， 基 于 Jacobian 的 收缩 惩 如 预 训练 特征 函数 f( x )， 将 收缩 惩 
ti DAA TEC x ) 而 不 是 g(f( x )) 可 以 产生 最 好 的 分 类 精度 。 如 上 第 14.5.1 节 所 
讨论 的 ， 应 用 于 f(x ) 的 收缩 惩罚 与 得 分 匹配 也 有 紧密 的 联系 。 


收缩  Ccontractive) 源 于 CAE 谷 曲 衬 间 的 方式 。 有 具体 来 说 ， 由 于 CAE 训 
练 为 抵抗 输入 扰动 ， 茅 励 将 输入 点 邻 域 映 射 到 输出 点 处 更 小 的 邻 域 。 我 
们 能 认为 这 是 将 输入 的 邻 域 收缩 到 更 小 的 输出 邻 域 。 


说 得 更 清楚 一 点 ，CAE 只 在 局 部 收缩 一 一 一 个 训练 样本 x 的 所 有 扰动 都 
映射 到 f(Cx ) 的 附近 。 全 局 来 看 ， 两 个 不 同 的 点 X 和 X 会 分 别 被 映射 到 
远离 原点 的 两 个 点 f( x ) 和 f( x ' )。f 扩 展 到 数据 流 形 的 中 间或 远 处 是 合 
理 的 〈 见 图 14.7 中 小 例子 的 情况 ) 2 4Q( h EWH sigmoid HJE 
时 ， 收 缩 Jacobian 的 简单 方式 是 令 sigmoid 趋 向 饱和 的 0 或 1。 这 鼓励 CAE 
使 用 sigmoid 的 极 值 编码 输入 点 ， 或 许可 以 解释 为 二 进 制 编码 。 它 也 保 
证 了 CAE 可 以 罕 过 大 部 分 sigmoid 隐 藏 单元 能 张 成 的 超 立 方 体 ， 进 而 扩 - 
AM 4 (EL o 


我 们 可 以 认为 点 x 处 的 Jacobian 窜 阵 J peki JER TEIE UE WA Ze 
子 。 这 人 允许 我 们 更 形式 地 使 用 “收缩 ”这 个 词 。 在 线性 理论 中 ， 当 Jx 的 
BOY FAA DL x 都 小 于 等 于 1 时 ， J 被 称 为 收缩 的 。 换 名 话说， 如 
果子 收缩 了 单位 球 ， 它 束 是 收缩 的 。 我 们 可 以 认为 CAE 为 救 励 每 个 局 部 
线性 算 子 具有 收缩 性 ， 而 在 每 个 训练 数据 点 处 将 Frobenius 范 数 作 为 fC x ) 
的 局 部 线性 近似 的 惩 庵 。 


如 第 14.6 节 中 手 述 ， 正 则 上 日 编 公 右 基于 两 种 相反 的 推动 力学 习 流 形 。 在 
CAEW TUL Po XPRESS EERME h )。 单 独 的 重 
HRA EX ICAE# =] AEE RA. PUN AE TL ee CAE“ AR 





于 x BERRE Sma Dione SOT (®D) 大 多 是 


I” 
微小 的 自 编码 器 。 只 有 少数 隐藏 单元 ， 对 应 于 一 小 部 分 输入 数据 的 方 
向 ， 可 能 有 显著 的 导数 。 


CAE 的 目标 是 学 习 数 据 的 流 形 结构 。 使 Jx (RATT Ia) x ， 会 快速 改变 
h ， 因 此 很 可 能 是 近似 流 形 切 平面 的 方 回 。Rifai et al. (2011a, b) 的 
实验 显示 训练 CAE 会 导 人 至 J 中 大 部 分 奇异 值 〈( 幅 值 〉 比 1 小 ， 因 此 是 收 
4a. JAM, ALARA VVALLIK, WAEREA NENA CAEX 
EN Jay MET Aa [gE AT tg © ON PRK AAEN A RR A 
目 编 码 右 学 到 的 切 方 辐 。 理 想 情 况 下 ， 这 些 切 方 同 应 对 应 于 数据 的 真实 
变化 。 比 如 ， 一 个 应 用 于 图 像 的 CAE 应 该 能 学 到 显示 图 像 改 变 的 切 向 

量 ， 束 像 图 14.6 中 物体 渐渐 改变 状态 。 如 图 14.10 所 示 ， 实 验 获 得 的 奇异 
同 量 的 可 视 化 似乎 真 的 对 应 于 输入 图 像 有 意义 的 变换 。 


洽 入 点 YJ) a] ae 
x A ` k P sa B. er = Ji j ae 
ae “ss a i” i en | ‘= 7 ki : 
+: - T # 4 hes - > E 





收缩 自 编码 器 


图 14.10 ”通过 局 部 PCA 和 收缩 目 编 码 器 估计 的 流 形 切 回 量 的 图 示 。 流 形 的 位 置 由 来 自 CIFAR-10 

数据 集中 狗 的 输入 图 像 定 义 。 切 癌 量 通 过 输入 到 代码 映射 的 Jacobian 算 阵 on 的 前 导 奇 异同 量 
Ca 

估计 。 虽 然 局 部 PCA 和 CAE 都 可 以 捕获 局 部 切 方 向 ， 但 CAE 能 够 从 有 限 训练 数据 形成 更 准确 的 

估计 ， 因 为 它 利 用 了 不 同位 置 的 参数 共享 (共享 激活 的 隐藏 单元 子 集 ) 。CAE 切 方 同 通 常 对 应 

于 物体 的 移动 或 改变 部 分 〈 例 如 头 或 腿 ) 。 经 Rifai etal. (2011c) 许可 转载 此 图 


收缩 目 编 码 堪 正则 化 准则 的 一 个 实际 问题 是 ， 尽 管 它 在 单一 隐藏 层 的 目 
编码 霹 情 况 下 是 容易 计算 的 ， 但 在 更 深 的 目 编 码 器 情况 下 会 变 得 难以 计 
算 。 根 据 Rifai et al. (2011la) 的 案 略 ， 分 别 训 练 一 系列 蛙 层 的 目 编码 
锅 ， 并 有 旦 每 个 个 训练 为 午 构 表 一 个 目 编 码 右 的 隐藏 层 。 这 些 目 编码 磊 的 
组 合 束 组 成 了 一 个 深度 目 编 码 右 。 因 为 每 个 层 分 别 训练 成 局 部 收缩 ， 深 


度 自 编码 器 自然 也 是 收缩 的 。 这 个 结果 与 联合 训练 深度 模型 完整 架构 
( 带 有 关于 Jacobian 的 惩 玉 项 ) 获得 的 结果 是 不 同 的 ， 但 它 抓 住 了 许多 
理想 的 定性 特征 。 


另 一 个 实际 问题 是 ， 如 果 我 们 不 对 解码 器 强加 一 些 约 束 ， 收 缩 惩 吉 可 能 
导致 无 用 的 结果 。 例 如 ， 编 码 器 将 输入 乘 一 个 小 常数 下 ， 解 码 器 将 编 
码 除 以 一 个 小 常数 于 。 随 着 已 趋向 于 0， 编 码 器 会 使 收缩 惩罚 项 Q( h ) 
趋 回 于 0 而 学 不 到 任何 关于 分 布 的 信息 。 同 时 ， 解 码 器 你 持 完美 的 重 
构 。Rifai et al. (2011a) 通 过 绑 定 fg 的 权重 来 防止 这 种 情况 。f 和 g 都 
是 由 线性 仿 射 变换 后 进行 逐 元 素 非 线 性 变换 的 标准 神经 网 络 层 组 成 ， 
此 将 g 的 权重 窍 阵 设 成 f 权 重 窍 阵 的 转 置 是 很 直观 的 。 


14.8 FHM EA Ir E 


预测 稀疏 分 解 (predictive sparse decomposition, PSD) Æ Fi i ino N 
AL H mtis (Kavukcuoglu et al. , 2008) 的 混合 模型 。 参 数 化 编码 器 
被 训练 为 能 预 出 和 迭代 推 半 的 输出 。PSD 被 应 用 于 图 片 和 视频 中 对 象 识别 
的 无 监督 特征 学 习 (Kavukcuoglu et al. , 2009, 2010; Jarrett et al. , 
2009b; Farabet et al. , 2011) ， 在 首 频 中 也 有 上 所 应 用 (Henaff et al. , 
2011) 。 这 个 模型 由 一 个 编码 器 f( x ) 和 一 个 解码 器 g( h ) 组 成 ， 并 且 都 
征 参 数 化 的 。 在 训练 过 程 中 ， 玉 由 优化 算法 控制 。 优 化 过 程 是 最 小 化 


læ — g(h) ||" + Ahh + Yh — fæ) (14.19) 


PAM AMS, WARE ZAC SHAT h 和 模型 的 参数 最 小 化 上 述 目 标 。 
相对 h 最 小 化 较 快 ， 因 为 f(x E h 的 民 好 初始 值 以 及 损失 函数 将 hh ZY 
束 在 f( x) 附近。 简单 的 梯度 下 降 算 法 只 需 10 步 左右 束 能 获得 理想 有 的 hh 。 


PSD 所 使 用 的 训练 程序 不 是 完 训练 稀 艳 编码 模型 ， 然 后 训练 f( x ) 来 预测 
PRAMS HARE. PSD ZR IE CRS as, TEAL EC x ) 可 以 推断 出 民 
好 编 公 的 参数 。 


POLL Aes it ay ee FE HS UT AE? (learned appro x imate inference) 的 一 个 
例子 。 在 第 19.5 节 中 ， 这 个 话题 将 会 进一步 展开 。 第 19 章 中 展示 的 工具 

能 让 我 们 了 解 到 ，PSD 能 够 被 解释 为 通过 最 大 化 模型 的 对 数 似 然 下 界 训 

练 有 问 稀 疏 编码 的 概率 模型 。 


FEPSDINSEPR YADA, EACLE VIR AE BRA Jaa 

BaP ROAST SI RPE. FAECES F RET h ， 计 
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Hinton and Salakhutdinov (2006) 训练 了 一 个 栈 式 RBM， 然 后 利用 它们 
的 权重 初始 化 一 个 隐藏 层 逐 渐 减 小 的 深度 自 编 码 器 ， 终 结 于 30 个 单元 的 
瓶颈 。 生 成 的 编码 比 30 维 的 PCA 产 生 更 少 的 重 构 误 差 ， 所 学 到 的 表示 更 
容易 定性 解释 ， 并 能 联系 基础 类 别 ， 这 些 类 别 表现 为 分 离 民 好 的 集群 。 


低 维 表 示 可 以 提高 许多 任务 的 性 能 ， 例 如 分 类 。 小 衬 间 的 模型 消耗 更 少 
的 内 存 和 运行 时 间 。 据 Salakhutdinov and Hinton (2007b) 和 Torralba et 
al. (2008) 观察 ， 许 多 降 维 的 形式 会 将 语义 上 相关 的 样本 置 于 役 此 邻 
近 的 位 置 。 映 射 到 低 维 空间 所 提供 的 线索 有 助 于 泛 化 。 


相 比 普通 任务 ， 信 息 检 索 information retrieval) 从 降 维 中 获 益 更 多 ， 
此 任务 需要 找到 数据 库 中 类 似 奏 询 的 条 目 。 此 任务 不 仅 和 其 他 任务 一 样 
从 降 维 中 获得 一 般 荔 处 ， 还 使 菜 些 低 维 空间 中 的 搜索 变 得 极为 融 效 。 特 
别 的 ， 如 果 我 们 训练 降 维 拭 法 生成 一 个 低 维 旦 二 值 的 编码 ， 那 么 我 们 就 
AY DORA Bids KER A EMR eR A BS se TK NG i He ATF 
RATNE EHA A E 1B iat A ee EO VE ANS M a RET fw ER o 
我 们 也 可 以 非常 高 效 地 搜索 稍 有 不 同 条 目 ， 只 需 反 转 奏 询 编码 的 各 个 
位 。 这 种 通过 降 维和 二 值 化 的 信息 检索 方法 和 被 称 为 语义 哈 硕 (semantic 
hashing) (Salakhutdinov and Hinton, 2007b, 2009b) ， 已 经 被 用 于 文 
本 输入 (Salakhutdinov and Hinton, 2007b, 2009b) 和 图 像 (Torralba et 
al., 2008; Weiss etal. ，2008; Krizhevsky and Hinton, 2011) 。 


jE Hs TE Be ZA JR EE H sigmoid th A 0" AE a SCM is HY — AS 
sigmoid 单 元 必须 被 训练 为 到 达 饱 和 ， 对 所 有 输入 值 都 接近 0 或 接近 1。 
能 做 到 这 一 点 的 务 门 就 是 训练 时 在 sigmoid 非 线性 单元 前 简单 地 注入 加 
性 噪声 。 噪 声 的 大 小 应 该 随时 间 增 加 。 要 对 抗 这 种 噪声 并 且 你 和 存 尽 可 能 
多 的 信息 ， 了 网络 必须 加 大 和 输入 到 sigmoid 函 数 的 幅度 ， 直 到 饱和 。 


=e Ja fp es) EAE ES TA ERY, PLEA VIIA 
表示 的 和 想法， 其 中 所 需 优 化 的 损失 与 哈 希 表 中 得 找 附近 样本 的 任务 有 更 
直接 的 联系 (Norouzi and Fleet, 2011) 。 


第 15 革 表示 学 习 


在 本 章 中 ， 首 先 我 们 会 讨论 表示 学 习 是 什么 意思 ， 以 及 表示 的 概念 如 何 
有 助 于 深度 框架 的 设计 。 我 们 探讨 学 习 算 法 如 何在 不 同 任 务 中 共享 统计 
信息 ， 包 括 使 用 无 监督 任务 中 的 信息 来 完成 监督 任务 。 共 享 表 示 有 助 于 
处 理 多 模式 或 多 领域 ， 或 是 将 已 学 到 的 知识 迁移 到 样本 很 少 或 没有 ， 但 
任务 表示 依然 存在 的 任务 上 。 最 后 ， 我 们 回 过 头 探讨 表示 学 习 成 功 的 原 
因 ， 从 分 布 式 表示 (Hinton et al. , 1986) 和 深度 表示 的 理论 优势 ， 最 
后 会 讲 到 数据 生成 过 程 潜在 假设 的 更 一 般 概念 ， 特 别 是 观测 数据 的 基本 
成 因 。 


很 多 信息 处 理 任 务 可 能 非常 容易 ， 也 可 能 非常 困难 ， 这 取决 于 信息 是 如 
何 表 示 的 。 这 是 一 个 广泛 适用 于 日 弟 生 活 、 计 算 机 科学 及 机 楷 学 习 的 基 
本 原则 。 例 如 ， 对 于 人 而 言 ， 可 以 直接 使 用 长 除法 计算 210 除 以 6。 但 如 
果 使 用 罗 蕊 数字 表示 ， 这 个 问题 束 没 那么 下 接 了。 大 部 分 现代 人 在 使 用 
罗马 数字 计算 CCX 除 以 VI 时 ， 痢 会 将 其 转化 成 阿拉 伯 数 字 ， 从 而 使 用 位 
值 系 统 的 长 除法 。 更 具体 地 ， 我 们 可 以 使 用 合适 或 不 合适 的 表示 来 量化 
不 同 操作 的 潮 近 运行 时 间 。 人 例如， 插入 一 个 数字 到 有 序 表 中 的 正确 位 
置 ， 如 采 诅 数列 表示 为 链表 ， 那 么 所 需 时 间 是 OOnD); 如 采访 列表 表示 为 
红 黑 树 ， 那 么 只 需要 OUog m 的 时 间 。 


在 机 器 学 习 中 ， 到 底 是 什么 因素 决定 了 一 种 表示 比 另 一 种 表示 更 好 呢 ? 
一 般 而 言 ， 一 个 好 的 表示 可 以 使 后 续 的 学 习 任务 更 容易 。 选 择 什么 表示 
通常 取决 于 后 续 的 学 习 任 务 。 


我 们 可 以 将 监督 学 习 训 练 的 前 馈 网 络 视 为 表示 学 习 的 一 各 形式。 具体 

地 ， 网 络 的 最 后 一 层 通 党 是 线性 分 类 需 ， 如 softmax 回 归 分 类 硕 。 网 络 

的 其 余部 分 学 习 出 该 分 类 器 的 表示 。 监 督学 习 训 练 模 型 ， 一 般 会 使 得 模 
型 的 各 个 隐 纠 屋 〈 特 别 是 接近 顶层 的 隐 纠 层 ) 的 表示 能 够 更 加 容易 地 完 
成 训练 任务 。 例 如 ， 输 入 特征 线性 不 可 分 的 类 别 可 能 在 最 后 一 个 隐 矛 层 
变 成 线性 可 分 离 的 。 原 则 上 ， 最 后 一 层 可 以 是 男 一 种 模型 ， 如 最 近邻 分 
类 器 (Salakhutdinov and Hinton, 2007a) 。 倒 数 第 二 层 的 特征 应 该 根据 


最 后 一 层 的 类 型 学 习 不 同 的 性 质 。 


前 僻 网 络 的 监督 训练 并 没有 给 学 成 的 中 间 特 征明 确 强 加 任何 条 件 。 其 他 
的 表示 学 习 算 法 往往 会 以 对 种 特定 的 方式 明确 设计 表示 。 例 如 ， 我 们 想 
要 学 习 一 种 使 得 密度 估计 更 容易 的 表示 。 有 共有 更 多 独立 性 的 分 布 会 更 容 
易 建 模 ， 因 此 ， 我 们 可 以 设计 或 励 表 示 同 量 严 中 元 系 之 间 相 互 独立 的 目 
PDEA Bo MAREN, TC BAR GEA PT EIU H E, 
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他 任务 。 或 者 ， 多 个 任务 有些 是 监督 的 ， 有 些 是 无 监督 的 ) 可 以 通过 
共 圣 的 内 部 表示 一 起 竺 习 。 


大 多 数 表示 和 学习 算法 部 会 在 尽 可 能 多 地 你 留 与 输入 相关 的 信息 和 退 求 民 
好 的 性 质 如 独立 性 ) 之 间作 出 权衡 。 


表示 竺 习 特 列 有 趣 ， 因 为 它 提供 了 进行 无 监督 学 习 和 半 监 督学 习 的 一 种 
方法 。 我 们 通 第 会 有 已 量 的 未 标注 训练 数据 和 相对 较 少 的 标注 训练 数 
扼 。 在 非常 有 限 的 标注 数据 集 上 监督 学 习 通 币 会 导致 严重 的 过 拟 合 。 半 
监督 学 习 通 过 进一步 学 习 未 标注 数据 ， 来 解决 过 拟 合 的 问题 。 有 基体 地 ， 
我 们 可 以 从 未 标注 数据 上 学 习 出 很 好 的 表示 ， 然 后 用 这 些 表示 来 解决 监 


督学 习 问 题 。 


人 关 和 动物 能 够 从 非常 少 的 标注 样本 中 和 学习。 我 们 全 今 仍 不 知道 这 是 如 
何 做 到 的 。 有 许多 假说 解释 人 类 的 早 越 学 习 能 例如 ， 大 脑 可 能 使 
用 了 大 量 的 分 类 右 或 者 贝 叶 斯 推 师 技术 的 集成 。 一 种 流行 的 假说 是 ， 大 
脑 能 够 利用 无 监督 学 习 和 半 监 督学 习 。 利 用 未 标注 数据 有 多 种 方式 。 在 
本 章 中 ， 我 们 主要 便 用 的 假说 是 未 标注 数据 可 以 学 习 出 民 好 的 表示 。 


15.1 信心 逐 层 无 监督 预 训练 


无 监督 学 习 在 深度 神经 网 络 的 复兴 上 起 到 了 关键 的 、 历 史 性 的 作用 ， 邱 
使 研究 者 首次 可 以 训练 不 售 诸 如 疮 积 或 者 循环 这 类 特殊 结构 的 深度 监督 
网 络 。 我 们 将 这 一 过 程 称 为 无 监督 预 训练 (unsupervised 
pretraining) ， 或 者 更 精确 地 ， 贫 心 逐 层 无 监督 预 训练 (greedy layer- 
wise unsupervised pretraining) > HI -MEZ ERB, HIN 
攻取 输入 分 布 的 形状 的 表示 如 何 有 助 于 为 一 个 任务 (具有 相同 输入 域 
的 监督 学 习 ) 的 典型 示例 。 





BI TC LS I ORT ER EON GE, PIQIRBM, Jee 
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学 习 预 训练 ， 将 前 一 层 的 输出 作为 输入 ， 输 出 数据 的 新 的 表示 。 这 个 新 
的 表示 的 分 布 (或 者 是 和 其 他 变量 比如 要 预测 类 别 的 关系 ) 有 可 能 是 更 
简单 的 ， 如 算法 15.1 所 示 的 正式 表述 。 





算法 15.1 贫 心 逐 层 无 监督 预 训练 的 协定 。 





给 定 如 下 : 无 监督 特征 学 习 算法 ， ”使 用 训练 集 样本 并 返回 编码 
器 或 特征 函数 f。 原 始 答 入 数据 是 X ， 每 行 一 个 样本 ， 并 且 f 中 (x ) 是 第 
一 阶段 编码 器 关于 X 的 输出 。 在 执行 精 调 的 情况 下 ， 我 们 使 用 学 习 者 
T ”， 并 使 用 初始 函数 f， 输 入 样本 X (以 及 在 监督 精 调情 况 下 关联 的 
目标 了 ) ， 并 返回 细 调 好 函数 。 阶 段 数 为 m。 


if fine-tuning then 
f+ TU X,Y) 

end if 

Return f 


基于 无 监督 标准 的 贫 心 逐 层 训练 过 程 ， 早 己 航 用 来 规避 监督 问题 中 深度 
神经 网 络 难 以 联合 训练 多 层 的 问题 。 这 种 方法 至 少 可 以 退 漳 神经 认 知 机 
(Fukushima, 1975) 。 深 度 学 习 的 复兴 始 于 2006 年 ， 源 于 发 现 这 种 贪 
心 学 习 过 程 能 够 为 多 层 联合 训练 过 程 找到 一 个 好 的 初始 什 ， 甚 至 可 以 成 
功 训练 全 连接 的 结构 (Hinton et al. , 2006b; Hinton and 
Salakhutdinov, 2006; Hinton, 2006; Bengio et al. , 2007d; Ranzato et 
al. , 2007a) 。 在 此 友 现 之 前 ， 只 有 深度 苍 积 网 络 或 深 友 循环 网 络 这 类 
特殊 结构 的 深 展 网 络 秘 认为 是 有 可 能 训练 的 。 现 在 我 们 知道 训练 具有 全 
连接 的 深 友 结构 时 ， 不 再 需要 使 用 信心 逐 层 无 监督 预 训练 ， 但 无 监督 预 
训练 是 第 一 个 成 功 的 方法 。 


贫 心 逐 层 无 监督 预 训练 被 称 为 贷 心 (greedy) 的 ， 是 因为 它 是 一 个 贪心 
算法 (greedy algo-rithm) ， 这 意味 看 它 独 立地 优化 解决 方 采 的 每 一 个 
部 分 ， 每 一 步 解 决 一 个 部 分 ， 而 不 是 联合 优化 所 有 部 分 。 它 被 称 为 逐 层 
的 (layer wise) ， 是 因为 这 些 独 立 的 解决 方案 是 网 络 层 。 具 体 地 ， 食 
心 逐 层 无 监督 预 训练 每 次 处 理 一 层 网 络 ， 训 练 第 k 层 时 保持 前 面 的 网 络 
层 不 变 。 特 别 地 ， 低 层 网 络 〈 最 先 训练 的 ) 不 会 在 引入 高 层 网 络 后 进行 
调整 。 它 被 称 为 无 监督 ”〈unsupervised) 的 ， 是 因为 每 一 层 用 无 监督 表 
示 和 芝 习 算法 训练 。 然 而 ， 乱 也 被 称 为 预 训练 Cpretraining) ， 十 因为 它 
只 是 在 联合 训练 算法 精 调 Cine tune) 所 有 层 之 前 的 第 一 步 。 在 监督 学 
习 任 务 中 ， 它 可 以 被 看 作 正则 化 项 (在 一 些 实验 中 ， 预 训练 不 能 降低 训 
Zine, {ARERR RA) 和 参数 初始 化 的 一 种 形式 。 


通 币 而 言 , “了 预 训练 ?不 仅 单 指 预 训练 阶段 ， 也 指 结合 预 训 练 和 监督 学 习 
的 两 阶段 学 习 过 程 。 监 督学 习 阶 段 可 能 会 使 用 预 训练 阶段 得 到 的 顶层 特 
征 训练 一 个 简单 分 关 磺 ， 或 者 可 能 会 对 了 预 训练 阶段 得 到 的 整个 网 络 进行 
监督 精 调 。 不 管 订 用 什么 区 型 的 监督 学 习 算法 和 和 模型， 在 大 多 数 情况 
下 ， 整 个 训练 过 程 几乎 是 相同 的 。 虽 然 无 监督 学 习 算 法 的 选择 将 明显 影 
啊 到 细节 ， 但 是 大 多 数 无 监督 预 训练 应 用 都 刘 循 这 一 基本 方法 。 


信心 逐 层 无 监督 预 训练 也 能 用 作 其 他 无 监督 学 习 算法 的 初始 化 ， 比 如 深 
度 自 编 码 器 (Hin-ton and Salakhutdinov, 2006) 和 具有 很 多 潜 变 量 层 的 
概率 模型 。 这 些 模型 包括 深度 信念 网 络 (Hinton et al. , 2006b) 和 深度 
Pe R24 HNL (Salakhutdinov and Hinton, 2009a) 。 这 些 深度 后 成 模型 会 
在 第 20 章 中 讨论 。 


正如 第 8.7.4 节 上 所 探讨 的 ， 我 们 也 可 以 进行 贫 心 逐 层 监督 预 训 练 。 这 是 建 
普 在 训练 浅 层 模型 比 深 上 度 模 型 更 容易 的 前 提 下 ， 而 该 前 提 人 似乎 在 一 些 情 
况 下 已 被 证 实 (Erhan etal., 2010) à- 


15.1.1 何 时 以 及 为 何 无 监督 预 训练 有 效 有 戏 
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提升 。 这 一 观察 结果 始 于 2006 年 对 深度 神经 网 络 的 重新 关注 (Hinton et 
al., 2006b; Bengio et al. ，2007d; Ranzato etal. ，2007a) 。 然 而 ， 在 
很 多 其 他 问题 上 ， 无 监督 预 训练 不 能 融 来 改善 ， 甚 至 还 会 市 来 明显 的 负 
面 影 响 。Ma et al. (2015) I Y TVIRD Lae StH) Be EOS ET 
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负面 效果 ， 因 此 很 有 必要 了 解 它 何 时 有 效 以 及 有 效 的 原因 ， 以 确定 它 是 
全 适合 用 于 特定 的 任务 。 


首先 ， 要 注意 的 古 这 个 讨论 大 部 分 部 是 针对 信心 无 监督 预 训练 而 言 。 偿 
有 很 多 其 他 完全 不 同 的 方法 使 用 半 监 督学 习 来 训练 神经 网 络 ， 比 如 第 
7.13 市 介绍 的 虚拟 对 抗 训 练 。 我 们 还 可 以 在 训练 监督 模型 的 同时 训练 目 
编码 上 费 或 生成 檬 型 。 这 种 日 阶段 方法 的 例子 包括 判别 RBM (Larochelle 
and Bengio, 2008b) 和 椰 形 网 络 (Rasmus et al. , 2015) ， 其 中 整体 目 
标 古 两 项 之 和 【一 个 使 用 标 答 ， 另 一 个 仅仅 使 用 输入 ) 。 


无 监管 预 训练 结合 了 两 种 不 同 的 想法 。 第 一 ， 它 利用 了 深度 神经 网 络 对 
切 始 参数 的 选择 ， 可 以 对 模型 有 大 显 著 的 正则 化 效果 在 较 小 程度 上 ， 
可 以 改进 优化 ) 的 想法 。 第 二 ， 它 利用 了 更 一 般 的 想法 一 学习 和 输入 分 
布 有 助 于 学 习 从 输入 到 输出 的 映射 。 


这 两 个 想法 部 涉及 机 右 学 习 算 法 中 多 个 未 能 完全 理解 的 部 分 之 间 复 灯 的 
相互 作用 。 


第 一 个 想法 ， 即 深度 神 经 网 络 初 始 参 数 的 选择 对 其 性 能 具有 很 强 的 正则 
化 效果 ， 很 少 有 关于 这 个 想法 的 理解 。 在 预 训 练 变 得 流行 时 ， 在 一 个 位 
置 初始 化 模型 被 认为 会 使 其 接近 菏 一 个 局 部 极 小 点 ， 而 个 是 发 一 个 局 部 
极 小 点 。 如 今 ， 局 部 极 小 值 不 再 被 认为 是 神经 网 络 优 化 中 的 严重 问题 。 
现在 我 们 知道 标准 的 神经 网 络 训练 过 程 通 稼 不 会 到 达 任 何 形 陈 的 临界 
点 。 人 仍然 可 能 的 是 ， 预 训练 会 初始 化 模型 到 一 个 可 能 不 会 到 达 的 位 置 
例如 ， 某 种 区 域 ， 其 中 代价 函数 从 一 个 样本 点 到 男 一 个 样本 点 变化 
很 大 ， 而 小 批量 只 能 提供 噪声 严重 的 梯度 估计 ， 或 是 菜 种 区 域 中 的 
Hessian 窜 阵 条 件数 是 病态 的 ， 构 上 度 下 降 必 须 使 用 非常 小 的 步 长 。 然 而 ， 
我 们 很 难 准 确 判断 监督 学 习 期 间 预 训练 参数 的 哪些 部 分 应 该 保留 。 这 是 
现代 方法 通常 同时 使 用 无 监督 学 习 和 监督 学 习 ， 而 不 是 依 序 使 用 两 个 学 
习 阶 段 的 原因 之 一 。 除 了 这 些 复杂 的 方法 可 以 让 监督 学 习 阶 段 保 持 无 监 
督学 习 阶 段 提取 的 信息 之 外 ， 还 有 一 种 简单 的 方法 ， 固 定 特征 提取 二 的 
人 参数， 仅仅 将 监督 学 习作 为 项 层 学 成 特征 的 分 类 志 。 


万 一 个 想法 有 更 好 的 理解 ， 即 学 习 算 法 可 以 使 用 无 监 千 阶段 学 习 的 信 





轧 ， 在 监督 学 习 的 阶段 表现 得 更 好 。 其 基本 想法 是 ， 对 于 无 监督 任务 有 
用 的 一 些 特征 对 于 监督 学 习 任务 也 可 能 是 有 用 的 。 例 如 ， 如 果 我 们 训练 
汽车 和 摩托 车 图 像 的 生成 模型 ， 它 十 要 知道 轮子 的 概念 ， 以 及 一 张 图 中 
应 该 有 多 少 个 轮子 。 如 果 我 们 闻 运 的 话 ， 无 监督 阶段 和 学习 有 的 轮子 表示 会 
适合 于 监督 学 习 。 然 而 我 们 还 未 能 从 数学 、 理 论 层 面 上 证 明 ， 因 此 并 不 
忌 是 能 够 预测 哪 种 任务 能 以 这 种 形式 从 无 监督 学 习 中 受 荔 。 这 种 方法 的 
许多 方面 融 度 依赖 于 其 体 使 用 的 模型 。 例 如 ， 如 果 我 们 厦 望 在 预 训 练 特 
(EW UR USIP Rea, ABA CAIRR 特征 必须 使 潜在 的 类 列 是 
线性 可 分 离 的 。 这 些 性 质 通 第 会 在 无 监督 学 习 阶 段 目 袋 及 生 ， 但 也 并 非 
忌 是 如 此 。 这 是 为 一 个 监督 和 无 监督 学 习 同 时 训练 更 可 取 的 原因 一 一 输 
出 层 施 加 的 约束 很 目 然 地 从 一 开始 束 包 括 在 内 。 


从 无 监督 预 训练 作为 学 习 一 个 表示 的 角度 来 看 ， 我 们 可 以 期 望 无 监督 预 
训练 在 初始 表示 较 芭 的 情况 下 更 有 效 。 一 个 重要 的 例子 是 词 租 入 。 使 用 
one-hot 同 量 表示 的 词 并 不 具有 很 多 信息 ， 因 为 任意 两 个 不 同 的 one-hot 问 
量 之 间 的 距离 (平方 L“ 距离 都 是 2) 都 是 相同 的 。 学 成 的 词 租 入 自然 会 
用 它们 彼此 之 间 的 距离 来 编码 词 之 间 的 相似 性 。 因 此 ， 无 监督 预 训练 在 
处 理 单词 时 特别 有 用 。 然 而 在 处 理 图 像 时 是 不 太 有 用 的 ， 可 能 是 因为 图 
人 
ERE. 


从 无 监督 预 训练 作为 正则 化 项 的 角 虚 来 看 ， 我 们 可 以 期 望 无 监督 预 训练 
在 标注 样本 数量 非常 小 时 很 有 帮助 。 因 为 无 监督 预 训 练 添加 的 信息 来 源 
于 未 标注 数据 ， 所 以 当 未 标注 样本 的 数量 非常 大 时 ， 我 们 也 可 以 期 望 无 
监督 预 训 练 的 效果 最 好 。 无 监督 预 训 练 的 大 量 未 标注 样本 和 少量 标注 样 
本 构成 的 半 监 督学 习 的 优势 特别 明显 。 在 2011 年 ， 无 监督 预 训练 赢得 了 
两 个 国际 迁移 学 习 比 赛 (Mesnil et al. , 2011; Goodfellow et al. , 
2011) 。 在 该 情景 中 ， 目 标 任 务 中 标注 样本 的 数目 很 少 〈 每 燃 几 个 到 几 
十 个 ) 。 这 些 效果 也 出 现在 被 Paine etal. (2014) 严格 控制 的 实验 中 。 


还 可 能 涉及 一 些 其 他 的 因 系 。 例 如 ， 当 我 们 要 学 习 的 函数 非常 复杂 时 ， 
无 监督 预 训练 可 能 会 非常 有 用 。 无 监督 学 习 人 不 同 于 权 草 肥 减 这 样 的 正则 
化 项 ， 它 不 俩 癌 于 学 习 一 个 简单 的 国 数 ， 而 是 学 习 对 无 监督 学 习 任务 有 
用 的 特征 函数 。 如 来 真实 的 潜在 函数 是 复杂 的 ， 并 且 由 输入 分 布 的 规 健 
塑造 ， 那 么 无 监督 学 习 更 适合 作为 正则 化 项 。 


Se SHER SIP, BTS Ep HE th SP Se EY BK 
IWA, FEAR ARE IR RH OEE AC EE) CRE) AG HAY EF PU ZAR Es A SRE 
Ree, FFAM MU ASReE NU Re ERA. PAT, TRE 
预 训练 还 有 助 于 分 类 以 外 的 任务 ， 并 且 可 以 用 于 改进 优化 ， 而 不 仅仅 只 
是 作为 正则 化 项 。 例 如 ， 它 可 以 提 融 去 品目 编码 右 的 训练 和 测试 午 构 谋 
Æ (Hinton and Salakhutdinov, 2006) . 


Erhan et al. (2010) 进行 了 许多 实验 来 解释 无 监督 预 训练 的 儿 个 成 功 原 
央 。 对 训练 误 和 友和 测试 误 过 的 改进 都 可 以 解释 为 ,无 监督 预 训练 将 参数 
引入 到 了 其 他 方法 可 能 探索 不 到 的 区 域 。 神 经 网 络 训练 是 非 确 定性 的 ， 
并 且 每 次 运行 都 会 收敛 到 不 同 的 函数 。 训 练 可 以 保 止 在 梯度 很 小 的 点 ; 
也 可 以 提前 终止 结束 训练 ， 以 防 过 拟 合 ; 还 可 以 停止 在 梯度 很 大 ， 但 由 
于 诺 如 随机 性 或 Hessian 窍 阵 病态 条 件 等 问题 难以 找到 合适 下 降 方 回 的 
点 。 经 过 无 监督 预 训练 的 神经 网 络 会 一 致 地 俘 止 在 一 片 相 同 的 函数 空间 
区 域 ， 但 未 经 过 预 训 练 的 神经 网 络 会 一 致 地 俘 在 另 一 个 区 域 。 图 15.1 可 
视 化 了 这 种 现象 。 经 过 预 训练 的 网 络 到 达 的 区 域 是 较 小 的 ， 这 表明 预 训 
练 减少 了 估计 过 程 的 方 过 ， 这 进而 义 可 以 降低 严重 过 拟 合 的 风险 。 换 言 
之 ， 无 监督 预 训练 将 神经 网 络 参 数 初 始 化 到 它们 不 易 逃 逸 的 区 域 ， 并 且 
— REEE 和 没有 这 种 初始 化 相 比 ， 结 果 很 天 的 
可 能 性 更 低 。 
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图 15.1 在 函数 空间 (并 非 参 数 空间 ， 避 免 从 参数 癌 量 到 函数 的 多 对 一 映 揣 ) 不 同 神 经 网 络 学 

习 轨 迹 的 非 线 性 映射 的 可 视 化 。 不 同 网 络 采用 不 同 的 随机 初始 化 ， 并 且 有 的 使 用 了 无 监督 预 训 

练 ， 有 的 没有 。 每 个 反对 应 着 训练 过 程 中 一 个 特定 时 间 的 神经 网 络 。 经 Erhan et al. (2010) 许 

可 改编 此 图 。 函 数 空间 中 的 坐标 是 天 于 每 组 输入 x 和 它 的 一 个 输出 y EREE. Erhan et al 
(2010) 将 很 多 特定 x W y 连接 起 来 ， 线 性 投影 到 高 维 空间 中 。 然 后 他 们 使 用 


Isomap (Tenenbaum et al. , 2000) 进行 进一步 的 非 线 性 投影 并 投 到 二 维 空间 。 闫 色 表 示 时 间 。 
所 有 有 的 网 络 初 始 化 在 图 15.1 的 中 心 点 附近 【对 应 的 函数 区 域 在 不 多 数 输入 上 上 其 有 近似 均匀 分 布 
的 类 列 y〉。 随 看 时 间 推 移 ， 学 习 将 函数 回 外 移动 到 预测 得 更 好 的 点 。 当 使 用 预 训 练 时 ， 训 练 会 
一 致 地 收敛 到 同一 个 区 域 ， 而 不 使 用 预 训练 时 ， 训 练 会 收 伍 到 夯 一 个 不 重 登 的 区 域 。Isomap 试 
图 维持 全 局 相对 距离 (体积 因此 也 保持 不 变 ) ， 因 此 使 用 预 训练 的 模型 对 应 的 较 小 区 域 意味 
At, FET WUT AA BOD NT 


Erhan et al. (2010) 也 回 人 党 了 何 时 预 训练 效果 最 好 了 预 训练 的 网 络 越 
识 ， 测 试 误 和 的 均值 和 方 震 下 降 得 越 多 。 值 得 注意 的 是 ， 这 些 实验 是 在 
训练 非常 深层 网 络 的 现代 方法 发 明和 流行 (整流 线性 蛙 元 、Dropout 和 
批 标 准 人 化) 之 前 进行 的 ， 因 此 对 于 无 监督 预 训 练 与 当前 方法 的 结合 ， 
们 所 知 其 少 。 


一 个 重要 的 问题 是 无 监督 预 训 练 是 如 何 起 到 正则 化 项 作用 的 。 一 个 假设 
是 ， 预 训练 玛 励 学 习 算 法 发 现 那些 与 生成 观察 数据 的 湾 在 原因 相关 的 特 
征 。 这 也 是 局 发 除 无 监督 预 训练 之 外 许多 其 他 算法 的 重要 思想 ， 将 会 在 
第 15.3 节 中 进一步 讨论 。 


与 无 监 千 学 习 的 其 他 形式 相 比 ， 无 监督 预 训练 的 缺点 是 其 使 用 了 两 个 单 
独 的 训练 阶段 。 很 多 正则 化 扩 术 都 具有 一 个 优点 ， 多 许 用 户 通 过 调 台 单 
一 超 参 数 的 值 来 控制 正则 化 的 强度 。 无 监督 预 训练 没有 一 种 明确 的 方法 
来 调整 无 监督 阶段 正则 化 的 强度 。 相 反 ， 无 监管 预 训练 有 许多 超 参 数 ， 
但 其 效果 只 能 之 后 度量 ， 退 第 难以 所 前 预测 。 妆 我 们 同时 执行 无 监督 和 
监督 学 习 而 不 使 用 预 训练 集 略 时 ， 会 有 早 个 超 参 数 〈 通 剃 是 附加 a 到 无 监 
营 代 价 的 系数 ) 控制 无 监督 目标 正则 化 监督 模型 的 强度 。 减 少 该 系数 ， 
总 是 能 够 可 预 调 地 获得 较 少 正则 化 强度 。 在 无 监督 预 训练 的 情况 下 ， 没 
有 一 种 灵活 调整 正则 化 强度 的 方式 一 一 要 么 监督 模型 急 始 化 为 预 训练 的 
BM, BANE. 


具有 两 个 单独 的 训练 阶段 的 另 一 个 缺点 是 每 个 阶段 都 具有 各 目的 超 参 

数 。 第 二 阶段 的 性 能 通 第 不 能 在 第 一 阶段 期 间 预 出 ， 因 此 在 第 一 阶段 提 
出 超 参 数 和 第 二 阶段 根据 反 饥 来 更 新 之 国 存 在 较 长 的 延迟 。 最 通用 的 方 
法 是 在 监督 阶段 使 用 验证 集 上 的 误 玫 来 挑选 预 训练 阶段 的 超 参数 ， 如 

Larochelle et al. (2009) 中 讨论 的 。 在 实际 中 ， 有 些 超 参 数 ， 如 预 训 练 
友 代 的 次 数 ， 很 方便 在 预 训练 阶段 设 定 ， 通 过 无 监督 目标 上 使 用 提前 终 
止 策 略 完 成 。 这 个 策略 并 不 理想 ， 但 是 在 计算 上 比 使 用 监督 目标 代价 小 


pA 
得 多 。 





如 今 ， 大 部 分 算法 已 经 不 使 用 无 监督 预 训练 了 ， 除 了 在 目 然 语 言 处 理 领 
域 中 单词 作为 one-hot 回 量 的 目 然 表 示 不 能 传达 相似 性 信息 ， 并 且 有 非 锦 
多 的 未 标注 数据 集 可 用 。 在 这 种 情况 下 ， 预 训练 的 优点 是 可 以 对 一 个 巨 
大 的 未 标注 集合 〈 例 如 用 包含 数 十 亿 单 词 的 语料库 ) 进行 预 训练 ， 学 习 
民 好 的 表示 “《〈 通 第 是 单词 ， 但 也 可 以 是 句子 ) ， 然 后 使 用 该 表示 或 精 调 
它 ， 使 其 适合 于 训练 集 样本 大 幅 减 少 的 监督 任务 。 这 种 方法 由 Collobert 
and Weston (2008b) 、Turian etal. (2010) 和 Collobert et al. (2011a) 
开创 ， 至 今 仍 在 使 用 。 


基于 监督 学 习 的 深度 学 习 技 术 ， 通 过 Dropout 或 批 标 准 化 来 正则 化 ， 能 
够 在 很 多 任务 上 达到 人 类 级 别 的 性 能 ， 但 仅仅 是 在 极 大 的 标注 数据 集 
上 。 在 中 等 大 小 的 数据 集 〈 例 如 CIFEAR-10 和 MNIST， 每 个 类 大 约 有 
5000 个 标注 样本 ) 上 ， 这 些 技术 的 效果 比 无 监督 预 训练 更 好 。 在 极 小 的 
数据 集 ， 例 如 选择 性 喜 接 数据 集 ， 贝 叶 斯 方法 要 优 于 基于 无 监督 预 训练 
的 方法 (Srivastava, 2013) 。 由 于 这 些 原 因 ， 无 监督 预 训练 已 经 不 如 以 
本 流行 。 然 而 ， 无 监督 预 训练 仍然 是 深度 学 习 研 究 历 史上 的 一 个 重要 里 
程 碑 ， 并 将 继续 影响 当代 方法 。 预 训练 的 想法 已 经 推广 到 监督 预 训练 
(supervised pretraining) ， 这 将 在 第 8.7.4 贡 中 讨论 ， 在 迁移 学 习 中 这 是 
非常 利用 的 方法 。 迁 移 学 习 中 的 监督 预 训 练 流 行 〈《Oquab et al., 2014; 
Yosinski et al. , 2014) 于 在 ImageNet 数 据 集 上 使 用 卷 积 网 络 预 训 练 。 由 
于 这 个 原因 ， 实 践 者 们 公布 了 这 些 网 络 训练 出 的 参数 ， 束 人像 日 然 语 言 任 
务 公布 也 训练 的 单词 同 量 一 样 (Collobert et al. ，2011a; Mikolov et al. 
，2013a) o 


15.2 ”迁移 学 习 和 领域 自 适 应 


迁移 学习 和 领域 目 适 应 指 的 是 利用 一 个 情景 例如， 分 布 P 1 ) PUA 
学 到 的 内 容 去 改 秋 为 一 个 情景 (比如 分 布 P 。) 中 的 泛 化 情况 。 这 点 概 
括 了 上 一 市 提出 的 想法 ， 即 在 无 监督 学 习 任务 和 监督 学 习 任务 之 间 转 移 
表示 。 


在 迁移 和 学习 (transfer learning〉 中 ， 学 习 器 必须 执行 两 个 或 更 多 个 不 同 
的 任务 ， 但 是 我 们 假设 能 够 解释 P ; 变化 的 许多 因缘 和 和 学习 P ， 需 要 抓 住 
的 变化 相关 。 这 通 第 能 够 在 监督 学 习 中 解释 ， 输 入 是 相同 的 ， 但 是 输出 
不 同 的 性 质 。 例 如 ， 我 们 可 能 在 第 一 种 情景 中 学 习 了 一 组 视觉 闫 别 ， 比 


a Ay, Pe ERPE R Pe) AN Sl, EC A 
Be. WR se OMAP 1 及 样 ) 中 上 其 有 非常 多 的 数据 ， 那 么 这 有 
助 于 学 习 到 能 够 使 得 从 P ，。 抽 取 的 非 第 少 样本 中 快速 沁 化 的 表示 。 放 多 
视觉 关 别 共 孚 一些 低 级 概念 ， 比 如 边缘 、 视 觉 形状 、 几 何 变化 、 光 照 变 
化 的 影响 等 。 一 般 而 言 ， 当 存在 对 不 同情 景 或 任务 有 用 特征 时 ， 并 且 这 
些 特征 对 应 多 个 情景 出 现 的 潜在 因 系 ， 迁 移 学 习 、 多 任务 学习 〈 第 7.7 
TO 和 领域 目 适 应 可 以 使 用 表示 学 习 来 实现 。 如 图 7.2 所 示 ， 这 是 共 有 
共 军 撒 层 和 任务 相关 上 导 的 学 习 框架 。 


然而 ， 有 时 不 同 任务 之 间 共 享 的 不 是 输入 的 语义 ， 而 是 输出 的 语义 。 例 
如 ， 语 音 识 别 系 统 需要 在 输出 层 产 生 有 效 的 句子 ， 但 是 输入 附近 的 较 低 
层 可 能 需要 识别 相同 普 素 或 子音 素 发 首 的 非常 不 同 的 版 本 (这 取决 于 说 
WA) 。 在 这 样 的 情况 下 ， 共 享 神经 网 络 的 上 层 (输出 附近 )〉 和 进行 任 
务 特定 的 预 处 理 是 有 意义 的 ， 如 图 15.2 所 示 。 
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15.2 ”多 任务 学 习 或 者 迁移 学 习 的 架构 示例 。 输 出 变量 y EMBERS LERAM, 4 
入 变量 x 在 每 个 任务 (或 者 ， 比 如 每 个 用 户 ) 上 具有 不 同 的 意义 (甚至 可 能 具有 不 同 的 维 
度 ) 。 图 上 3 个 任务 为 x(D 、x(2、x O 。 底层 结 构 (决定 了 选择 方向 ) 是 面向 任务 的 ，. 
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在 领域 日 适应 (domain adaption) 的 相关 情况 下 ， 在 每 个 情景 之 间 任 务 
(和 最 优 的 输入 到 输出 的 映射 ) 都 是 相同 的 ， 但 是 输入 分 布 稍 有 不 同 。 
例如 ， 考 虑 情感 分 析 的 任务 ， 如 判断 一 条 评论 是 表达 积极 的 还 是 消极 的 
情绪 。 网 上 的 评论 有 许多 类 别 。 在 书 、 视 频 和 首 乐 等 媒体 内 容 上 训练 的 
顾客 评论 情感 预测 右 ， 被 用 于 分 析 诺 如 电视 机 或 留 能 电话 的 消费 电子 产 
辣 的 评论 时 ， 领 域 目 适应 情景 可 能 会 出 现 。 可 以 想象 ， 存 在 一 个 潜在 的 
图 数 可 以 判断 任何 语句 是 正面 的 、 中 性 的 还 是 负面 的 ， 但 是 词汇 和 风格 
可 能 会 因 领 域 而 有 和 差异， 使 得 路 域 的 汉化 训练 变 得 更 加 困难 。 人 简单 的 无 
监督 预 训练 〈 云 品目 编 但 硕 ) 已 经 能 够 非常 成 功 地 用 于 领域 目 适 应 的 情 
感 分 析 (Glorot etal., 2011c) 。 





一 个 相关 的 问题 是 概念 漂移 (concept drift) ， 我 们 可 以 将 其 视 为 一 种 
迁移 学 习 ， 因 为 数据 分 布 随 时 间 而 逐渐 变化 。 概 念 漂移 和 迁移 学 习 都 可 


以 被 视 为 多 任务 学 习 的 特定 形式 。* 多 任务 学 习 * 这 个 术语 通常 指 监督 学 
习 任务 ， 而 更 广义 的 迁移 学 习 的 概念 也 适用 于 无 监督 学 习 和 强化 学 习 。 


在 所 有 这 些 情 况 下 ， 我 们 的 目标 是 利用 第 一 个 情景 下 的 数据 ， 捉 取 那 些 
在 第 二 种 悄 景 中 学 习 时 或 直接 进行 预 出 时 可 能 有 用 的 信息 。 表 示 和 学 习 的 
核心 思想 是 相同 的 表示 可 能 在 两 种 悄 景 中 部 是 有 用 的 。 两 个 情景 使 用 相 
同 的 表示 ， 使 得 表示 可 以 受益 于 两 个 任务 的 训练 数据 。 


如 前 所 述 ， 迁 移 学 习 中 无 监督 深 友 学习 已 经 在 一 些 机 鼎 学 习 比 客 中 取得 
JI (Mesnil et al. ，2011; Goodfellow et al. , 2011) 。 这 些 比 赛 中 
的 某 一 个 实验 配置 如 下 。 首 先 每 个 参与 者 获得 一 个 第 一 种 情景 (来 目 分 
AGP , ) 有 的 数据 集 ， 其 中 含有 一 些 类 别 的 样本 。 参 与 者 必须 使 用 这 个 来 
学 习 一 个 民 好 的 特征 空间 (将 原始 输入 映射 到 菏 种 表示 〉 ， 使 得 当 我 们 
将 这 个 学 成 变换 用 于 来 目 迁 移 情 景 (分布 P ，) 的 输入 时 ， 线 性 分 类 器 
可 以 在 很 少 标 注 样 本 上 训练 、 并 沁 化 得 很 好 。 这 个 比 才 中 最 引 人 注 目的 
结果 之 一 是 ， 学 习 表 示 的 网 络 染 构 越 深 (在 第 一 个 情景 P | 中 的 数据 使 
用 纯 无 监督 方式 学 习 ) ， 在 第 二 个 情景 (迁移 》P 。， 的 新 类 别 上 学 习 到 
的 曲线 束 越 好 。 对 于 深度 表示 而 言 ， 迁 移 任 务 只 需要 少量 标注 样本 束 能 
显著 地 提升 汉化 性 能 。 


迁移 学 习 的 两 种 极 凯 形式 是 一 次 学 习 Cone-shot learning) MERZA 


(zero-shot learning) ， 有 时 也 被 称 为 过 数据 学 习 (zero-data 
learning) 。 只 有 一 个 标注 样本 的 迁移 任务 航 称 为 一 次 学 习 ; 没有 标注 
样本 的 迁移 任务 被 称 为 去 次 学 习 。 


因为 第 一 阶段 学 习 出 的 表示 就 可 以 清楚 地 分 离 出 洪 在 的 类 别 ， 所 以 一 次 
学 习 (Fei-Fei et al. , 2006) 是 可 能 的 。 在 迁移 学 习 阶 段 ， 仪 需要 一 个 
标注 样本 来 推 央 表示 空间 中 聚集 在 相同 点 周围 许多 可 能 测试 样本 的 标 
签 。 这 使 得 在 学 成 的 表示 空间 中 ， 对 应 于 不 变性 的 变化 因子 已 经 与 其 他 
因子 完全 分 离 ， 在 区 分 某 些 类 别 的 对 象 时 ， 我 们 可 以 学 习 到 哪些 因素 具 
有 决定 意义 。 


考虑 一 个 零 次 学 习 情 景 的 例子 ， 竺 习 右 已 经 读 取 了 大 量 文本 ， 然 后 要 解 
BRAY FOR BT Tale. WAR CAS AE ee UF I STAR, ABA BIA GE FI 
AMAIA, HRA EZI RRA. PON, AA AARE MR 
RIN AS, AA] ae A AEA Le TB es A ARP ze it o 


只 有 在 训练 时 使 用 了 额外 信息 ， 零 数据 学 习 (Larochelle et al. , 2008) 
和 零 次 学 习 (Palatucci et al. ; 2009; Socher et al. , 2013b) 才 是 有 可 能 
的 。 我 们 可 以 认为 零 数 据 学 习 场 景 包含 3 个 随机 变量 : 传统 输入 x ， 传 
统 输出 或 目标 y ， 以 及 摘 述 任务 的 附加 随机 变量 T。 诅 模型 被 训 练 来 估 
计 条 件 分 布 p Cy | x, D, PTE BATES WR. FE 
SANNA, RMA CAT BARA, “the Ey, y= 
1 表示 “是 ”，y 二 0 表示 “不 是 ”。 任 务 变 量 T 表 示 要 回答 的 问题 ， 例 如 “这 
SABAH BE Asn? ”如 果 训 练 集 包 含 和 T 在 相同 空间 的 无 监督 对 象 样 
本 ， 我 们 也 许 能 够 推 亲 未 知 的 TI 实例 的 含义 。 在 我 们 的 例子 中 ， 没 有 提 
前 看 到 猫 的 图 像 而 去 识别 猫 ， 所 以 拥有 一 些 未 标注 文本 数据 包含 句子 诸 
QU Fi AR HB” Ben REE Se”, OO FAI SE WE. 
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类 别 的 one-hot 编 怒 。 退 过 使 用 每 个 类 别 词 的 词 散 入 表示 ，Socher et al. 
(2013b) 提出 了 对 象 类 别 的 分 布 式 表示 。 


我 们 还 可 以 在 机 器 翻译 中 发 现 一 种 类 似 的 现象 (Klementiev et al. , 
2012; Mikolov etal. ，2013b; Gouws et al. , 2014) : 我 们 已 经 知道 一 
种 语言 中 的 单词 ， 还 可 以 学 到 单一 语言 语料库 中 词 与 词 之 间 的 关系 ; 男 
一 方面 ， 我 们 已 经 翻译 了 一 种 语言 中 的 单词 与 另 一 种 语言 中 的 单词 相关 


的 句子 。 即 使 我 们 可 能 没有 将 语言 X 中 的 单词 A 翻 译 成 语言 Y 中 的 单词 B 
的 标注 样本 ， 我 们 也 可 以 泛 化 并 猜 出 单词 A 的 翻 详 ， 这 是 由 于 我 们 已 经 
学 习 了 语言 X 和 Y 单 词 的 分 布 式 表示 ， 并 且 通 过 两 种 语言 句子 的 匹配 对 
组 成 的 训练 样本 ,产生 了 关联 于 两 个 空间 的 链接 (可 能 是 双 同 的 ) 。 如 
朱 联 合 学 习 3 种 成 分 《两 种 表示 形式 和 它们 之 国 的 天 系 ) ， 那 么 这 种 迁 
移 将 会 非常 成 功 。 


零 次 学 习 是 迁移 学 习 的 一 种 特殊 形式 。 同 样 的 原理 可 以 解释 如 何 能 执行 
ZIRAN] (multimodal learning) ， 学 习 两 种 模 态 的 表示 ， 和 一 种 模 
ASP UES 5 FR x 与 男 一 种 模 态 中 的 观察 结果 y 组 成 的 对 (x ，y 之 
间 的 关系 〈 通 党 是 一 个 联合 分 布 ) (Srivastava and Salakhutdinov, 

2012) 。 通 过 学 习 所 有 的 三 组 参数 (从 x 到 它 的 表示 、 从 y 到 它 的 表 
示 ， 以 及 两 个 表示 之 间 的 关系 ) ， 一 个 表示 中 的 概念 被 锁定 在 另 一 个 表 
示 中 ， 肥 之 本 然 ， 从 而 可 以 有 效 地 推广 到 新 的 对 组 。 这 个 过 程 如 图 15.3 
所 示 。 
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图 15.3 AAE xF y 之 间 的 迁移 学 习 能 够 进行 零 次 学 习 。 标 注 或 未 标注 样本 x AY DAA OI ZEN PF 
数 fx 。 同 样 地 ， 梓 本 y 也 可 以 学 习 表示 函数 fy 。 图 中 fx fy 劳 都 有 一 个 癌 上 的 箭头 ， 不 同 
盘 头 表示 不 同 的 作用 函数 。 并 且 和 区 头 的 类 型 表示 使 用 了 哪 一 种 函数 。 户 x 空间 中 的 相似 性 上 度量 下 
不 x 空间 中 任意 反对 之 间 的 距离 ， 这 种 度量 方式 比 直 接 度 量 x 空间 的 距离 更 好 。 同 样 地 ， hy 
间 中 的 相似 性 度量 表示 y 空间 中 任意 点 对 之 间 的 距离 。 这 两 种 相似 函数 都 使 用 和 帘 点 的 双 同 季 > 
表示 。 标 注 样本 (水平 虚线 ) Cx, y) 能 够 学 习 表示 fx (x) 和 表示 fy Cy XI HIE ERX j H 
CERERA) ， 以 及 这 些 表示 之 间 如 何 销 定 。 零 数据 学 习 可 以 通过 以 下 方法 实现 。 像 x test 可 
以 和 里 词 y test 关联 起 来 ， 即 使 该 蛙 词 没有 像 ， 仪 仅 古 因为 早 词 表示 fy CY test? MAES fx | 
test) 可 以 通过 表示 空间 的 映射 役 此 关联 。 这 种 方法 有 效 的 原因 是 ， 尽 管 像 和 单词 没有 匹配 成 
队 ， 但 是 它们 各 目的 特征 同 量 fx (xyesf) 和 fy CY test ) 互 相关 联 。 访 图 受 Hrant Khachatrian 的 建 1 
JAB 


15.3 “SIS RRA A 


表示 学 习 的 一 个 重要 问题 是 “什么 原因 能 够 使 一 个 表示 比 另 一 个 表示 更 
好 ? ”一 种 假设 是 ， 理 想 表 示 中 的 特征 对 应 到 观测 数据 的 潜在 成 因 ， 特 
伍 空 间 中 不 同 的 特征 或 方 回 对 应 看 不 同 的 原因 ， 从 而 表示 能 够 区 分 这 些 
原因 。 这 个 假设 促使 我 们 去 寻找 表示 p(x ) 的 更 好 方法 。 如 果 y 是 x WY 
要 成 因 之 一 ， 那 么 这 种 表示 也 可 能 是 计算 p(y | x ) 的 一 种 民 好 表示 。 从 
20 世 纪 90 年 代 以 来 ， 这 个 想法 已 经 指导 了 大 量 的 深度 学 习 研 究 工 作 
(Becker and Hinton, 1992; Hinton and Sejnowski, 1999) 。 天 于 半 监 
督学 习 可 以 超过 纯 监 督学 习 的 其 他 论点 ， 请 谈 者 参考 Chapelle et al. 
(2006) 的 第 1.2 节 。 


在 表示 学 习 有 的 其 他 方法 中 ， 我 们 大 多 关注 匈 于 建 柑 的 表示 一 一 例如 ， 数 
据 入 玩 或 是 各 项 之 则 相互 独立 的 情况 。 能 够 清楚 地 分 离 出 浴 在 因 系 的 表 
示 可 能 并 不 一 定 易 于 建 模 。 然 而 ， 该 假设 促使 半 监 督学 习 使 用 无 监督 表 
示 和 学习 的 一 个 更 深层 原因 是 ， 对 于 很 多 人 工 和 鲁能 任务 而 言 ， 有 两 个 相 随 
IEA: 一 旦 我 们 能 够 获得 观察 结 朱 基本 成 因 的 解释 ， 那 么 将 会 很 容易 
分 离 出 个 体 属性 。 具 体 来 说 ， 如 来 表示 问 量 h 表示 观察 值 x 的 很 多 潜在 
因 系 ， 并 且 输 出 问 量 y 是 最 为 草 要 的 原因 之 一 ， 那 么 从 h 预测 y 会 很 容 
多 。 


首先 ， 让 我 们 看 看 p(x ) 的 无 监督 学 习 无 助 于 学 习 p(y |x ) 时 ， 闪 监督 学 
习 为 何 失败 。 例 如 ， 考 虑 一 种 情况 ，p(x ) 是 均匀 分 布 的 ， 我 们 希望 学 习 














f(x) = Ely | x]. 显然 ， 仅 仅 观察 训练 集 的 值 x 不 能 给 我 们 关于 
ply | x) 的 任何 信息 。 


接 下 来 ， 让 我 们 看 看 半 监 督学 习 成 功 的 一 个 简单 例子 。 考 碟 这 梓 的 情 
况 ，x 来 目 一 个 泥 合 分 布 ， 每 个 y 值 具有 一 个 混合 分 量 ， 如 图 15.4 所 
示 。 如 朵 混合 分 量 很 好 地 分 出 来 了 了， 那么 建 模 p(x ) 可 以 精确 地 指出 每 个 
分 星 的 位 置 ， 每 个 闫 一 个 标注 样本 的 训练 集 足 以 精确 学 习 p(y | x )。 但 
尽 更 一 般 地 ， 什 么 能 将 p(y | x ) 和 p(x ) 天 联 在 一 起 呢 ? 


mm 
T 





图 15.4 混合 模型 。 具 有 3 个 混合 分 量 的 x 上 混合 密度 示例 。 混 合 分 量 的 内 在 本 质 是 潜在 解释 因 
子 y。 因 为 混合 分 量 〈 例 如 ， 图 像 数 据 中 的 日 然 对 象 类 别 ) 在 统计 学 上 是 显著 的 ， 所 以 仅仅 使 
用 未 标注 样本 无 监督 建 模 p( x ) 也 能 揭示 解释 因 了 于 y 


如 果 y 与 x 的 成 因 之 一 非常 相关 ， 那 么 p(x ) 和 p(y | x Hee RAI, ik 
图 找到 变化 潜在 因素 的 无 监督 表示 学 习 可 能 像 半 监 督学 习 一 样 有 用 。 


假设 y 是 x 的 成 因 之 一 ， 让 h 代表 所 有 这 些 成 因 。 真 实 的 生成 过 程 可 以 
BLU AE RG A ARRE PAC OR, SEP 是 x 的 父 市 反 : 





p(h, x) = p(x | h)p(h) (15.1) 
因此 ， 数 据 的 边缘 概率 是 
p(x) = Enp(z | h) (15.2) 


从 这 个 直观 的 观察 中 ， 我 们 得 出 结论 ，X 最 好 可 能 的 模型 (从 三 义 的 观 


A) 是 会 表示 上 述 “ 真 实 ” 结 构 的 ， 其 中 h 作为 潜 变 量 解 释 x 中 可 观察 的 
变化 。 上 文 讨 论 的 “理想 ”的 表示 学 习 应 该 能 够 反映 出 这 些 潜在 因子 。 如 
Ry 是 其 中 之 一 (或 是 案 窗 关联 于 其 中 之 一 ) ， 那 么 将 很 容易 从 这 种 表 
示 中 预测 y 。 我 们 会 看 到 给 定 x Fy 的 条 件 分 布 通过 贝 叶 斯 规则 关联 到 
上 去 中 的 分 量 : 

p(x | y)p(y) 


Ply | x) = a (15.3) 


ACI p(x ) 和 条 件 概 率 p(y | x VEER, A AA ATA 
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关于 这 个 事实 的 一 个 重要 的 研究 问题 是 ， 大 多 数 观察 是 由 极其 大 量 的 潜 
在 成 因 形成 的 。 假 设 y =h; ， 但 是 无 监督 学 习 器 并 不 知道 是 哪 一 个 hi 。 
对 于 一 个 无 监督 学 习 器 暴力 求解 就 是 学 习 一 种 表示 ， 这 种 表示 能 够 捕获 
所 有 合理 的 重要 生成 因子 h; ， 并 将 它们 彼此 区 分 开 来 ， 因 此 不 管 h ;是否 
关联 于 y ， 从 h 预测 y 都 是 容易 的 。 


在 实践 中 ， 暴 力求 解 是 不 可 行 的 ， 因 为 不 可 能 捕获 影响 观察 的 所 有 或 大 
多 数 变 化 因素 。 例 如 ， 在 视 沉 场景 中 ， 表 示 是 否 应 该 对 背景 中 的 所 有 最 
小 对 象 进行 编码 ?根据 一 个 有 据 可 查 的 心理 学 现象 ， 人 们 不 会 察觉 到 环 
境 中 和 他 们 所 在 进行 的 任务 并 不 立刻 相关 的 变化 ， 有 具体 例子 可 以 参考 
Simons and Levin (1998) 。 半 监督 学 习 的 一 个 重要 研究 前 沿 是 确定 每 
种 情况 下 要 编码 什么 。 目前， 处 理 大 量 潜 在 原因 的 两 个 主要 策略 是 ， 同 
时 使 用 无 监督 学 习 和 监督 学 习 信 号 ， 从 而 使 得 模型 捕获 最 相关 的 变动 因 
素 ， 或 是 使 用 纯 无 监督 学 习 学 习 更 大 规模 的 表示 。 


无 监督 学 习 的 为 一 个 思路 是 选择 一 个 更 好 的 确定 哪些 海 在 因 系 最 为 天 键 
的 定义 。 之 前 ， 目 编码 禹 和 生成 模型 被 训练 来 优化 一 个 类 似 于 均 方 误 到 
的 固定 标准 。 这 些 固 定 标准 确定 了 哪些 因 系 是 重要 的 。 人 例如， 图像 像 妹 
的 均 方 误 委 隐 却 地 指定 ， 一 个 海 在 因 系 只 有 在 其 坚 兰 地 改变 大 量 像 系 的 
涡 度 时 ， 才 是 重要 影响 因 系 。 如 朱 我 们 和 希 记 解决 的 问题 涉及 小 对 象 之 同 
的 相互 作用 ， 那 么 这 将 有 可 能 过 到 问题 。 如 图 15.5 所 示 ， 在 机 和 如 人 任务 
中 ， 目 编码 问 示 能 学 习 到 编码 小 三 压 球 。 同 样 是 这 个 机 桌 人 ， 它 可 以 成 
功 地 与 更 大 的 对 象 进行 交互 《例如 棒球 ， 均 方 误 关 在 这 种 情况 下 很 显 





图 15.5 ”机 器 人 任务 上 ， 基 于 均 方 误差 训练 的 目 编码 器 不 能 重 构 兵 乓 球 。 兵 乓 球 的 存在 及 其 所 
有 衬 间 坐标 ， 是 生成 图 像 且 与 机 器 人 任务 相关 的 重要 潜在 因素 。 不 幸 的 是 ， 自 编码 器 具有 有 限 
的 容量 ， 基 于 均 方 误差 的 训练 没 能 将 三 长 球 作 为 显著 物体 识别 出 来 编码 。 以 上 图 像 由 Chelsea 

Finn 提 供 
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非常 显著 。 实 现 这 样 一 种 定义 显著 的 方 读 是 使 用 最 近 提 出 的 生成 式 对 抗 
网 络 (generative adversarial network) (Goodfellow et al. , 2014c) 。 
EXI ERF, AL RAL VIOREL FWMA. HR Ra NK 
来 目 生 成 模型 的 所 有 样本 识别 为 假 的 ， 并 将 来 目 训练 集 的 所 有 样本 识别 
为 真 的 。 在 这 个 框 染 中 ， 前 人 馈 网 络 能 够 识别 出 的 任何 结构 化 檬 式 都 是非 
常 显著 的 。 生 成 式 对 抗 网 络 会 在 第 20.10.4 节 中 更 详细 地 介绍 。 为 了 叙述 
方便 ， 知 媚 它 能 学 习 出 如 何 决 定 什么 是 显 阁 的 束 可 以 了 。Lotter et al. 
(2015) 表明 ， 生 成 人 关头 部 头像 的 模型 在 使 用 均 方 误差 训练 时 往往 会 
忽视 耳 林 ， 但 是 对 搞 式 框架 学 习 能 够 成 功 地 生成 是 朱 。 因 为 是 朱 与 周围 
的 皮肤 相 比 不 是 非 章 明 腕 或 黑暗 ， 所 以 根据 均 方 误 关 损失 它们 不 是 特别 
突出 ， 但 是 它们 高 度 可 识别 的 形状 和 一 致 的 位 置 意味 看 前 饭 网 络 能 够 轻 
吻 地 学 习 出 如 何 检测 它们 ， 从 而 使 得 它们 在 生成 式 对 抗 框架 下 是 高 度 突 
出 的 。 图 15.6 给 了 一 些 样 例 图 片 。 生 成 式 对 抗 网 络 只 是 确定 应 设 表 示 哪 
些 因 系 的 一 小 步 。 我 们 期 望 未 来 的 研究 能 够 发 现 更 好 的 方式 来 确定 表示 
哪些 因 系 ， 并 且 根 据 任 务 来 开 及 表示 不 同 因 系 的 机 制 。 


真实 情况 均 方 误差 对 抗 式 





图 15.6 ”预测 生成 网 络 古 一 个 学 习 哪 些 特征 显著 的 例子 。 在 这 个 例子 中 ， 预 测 生成 网 络 已 被 训 
练 成 在 特定 视角 预测 人 头 的 3D 模 型 。《〈 左 ) 真实 情况 。 这 是 一 张 网 络 应 该 生成 的 正确 图 厂 。 
CR) 由 具有 均 方 误 兰 的 预测 生成 网 络 生成 的 图 片 。 因 为 与 相 邻 多 肤 相 比 ， 耳 未 不 会 引起 腕 度 
的 极 大 差 卉 ， 上 所 以 它们 的 显著 性 不 足以 让 模型 学 习 表 示 和 它们 。《 右 ) RATT RAAT DIN 
失 的 模型 生成 的 图 片 。 使 用 这 个 学 成 的 代价 函数 ， 由 于 耳 和 汞 章 循 可 预测 的 模式 ， 因 此 耳 东 是 显 
昔 重 要 的 。 和 学习 哪些 原因 对 于 模型 而 言 是 足够 重要 和 相关 的 ， 是 一 个 重要 的 活跃 研究 领域 。 以 
上 图 片 由 Lotter et al. (2015) 提供 


正如 Sch6lkopf et al. (2012) 指出 ， 和 学 习 潜 在 因 系 的 好 处 是 ， 如 果真 实 
的 生成 过 程 中 x 是 结果 , y 是 原因 ， 那 么 建 模 p(x | y ) 对 于 p(y ) 的 变化 是 
鲁 棒 的 。 如 果 因 果 天 系 补 逆转 ， 这 是 不 对 的 ， 因 为 根据 贝 叶 斯 规则 ， 
p(x ly ) 将 会 对 p(y ) 的 变化 十 分 敏感 。 很 多 时 候 ， 我 们 考虑 分 布 的 变化 
(由 于 不 同 领域 、 时 间 不 稳定 性 或 任务 性 质 的 变化 ) 时 ， 因 果 机 制 是 保 
持 不 变 的 《〈“ 衬 宙 定 律 不 变 ”) ， 而 洲 在 因 率 的 边缘 分 布 是 会 变化 的 。 因 
此 ， 通 过 学 习 试 图 恢复 成 因 癌 量 h 和 p(x |h ) 的 生成 模型 ， 我 们 可 以 期 
望 最 后 的 模型 对 所 有 种 次 的 变化 有 更 好 的 泛 化 和 重 棱 性 。 


15.4 ”分布 式 表 示 


分 布 式 表示 的 概念 (由 很 多 元 系 组 合 的 表示 ， 这 些 元 系 之 间 可 以 设置 成 
可 分 离 的 ) 是 表示 学 习 最 曾 要 有 的 工具 之 一 。 分 布 式 表示 非常 强大 ， 因 为 
他 们 能 用 有 上 共有 k 个 值 的 n 个 特征 去 插 述 k 个 不 同 的 概念 。 正 如 我 们 在 本 
书 中 看 到 的 ， 上 其 有 多 个 隐藏 单元 的 神经 网 络 和 具有 多 个 潜 变 量 的 概 识 柑 
型 部 利用 了 分 布 式 表示 的 策略 。 我 们 现在 再 介绍 一 个 观察 结 来 。 许 多 深 
度 学 习 算法 基于 的 假设 是 ， 隐 藏 单元 能 够 学 习 表 示 出 解释 数据 的 潜在 因 
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入 空间 中 的 一 个 不 同 区 域 ， 如 图 15.7 所 示 。 这 可 以 与 符号 表示 相 比 较 ， 

其 中 输入 关联 a 到 单一 从 号 或 类 别 。 如 果 字 典 中 有 n 个 从 写 ， 那 么 可 以 想 
象 有 n 个 特征 监测 硕 ， 每 个 特征 探 训 禹 监 测 相 天 类 列 的 存在 。 在 这 种 情 
况 下 ， 只 有 表示 空间 中 nm 个 不 同 配置 才 有 可 能 在 输入 空间 中 刻画 n 个 不 同 
的 区 域 ， 如 图 15.8 所 示 。 这 样 的 从 号 表示 也 被 称 为 one-hot 表 示 ， 因 为 它 
可 以 表示 成 相互 排斥 的 n 维 二 元 问 量 〈( 其 中 只 有 有 一 位 是 油 活 的 ) 。 从 号 
表示 是 更 广泛 的 非 分 布 式 表示 类 中 的 一 个 具体 示例 ， 它 可 以 包含 很 多 条 
目 ， 但 是 每 个 条 目 没 有 显得 意义 的 单独 控制 作用 。 


h 2 } lg 


h=[1, 0, OlT 


h=[1, 1, 0 h=[1, 0, ij 


h; 


h= {0, 1, OJ" h=(0, 1, 17 h=[0, 0, 1]" 


图 15.7 ”基于 分 布 式 表示 的 学 习 算法 如 何 将 输入 空间 分 割 成 多 个 区 域 的 图 示 。 这 个 例子 具有 二 
元 变量 h 1 、h 2 、h 3 。 每 个 特征 通过 为 学 成 的 线性 变换 设 定 输出 阔 值 而 定义 。 每 个 特征 将 JR? 
分 成 两 个 半 平面 。 令 hy 表示 输入 点 hi 一 1 的 集合 ， A, 表示 输入 点 hi 一 0 的 集合 。 在 这 个 图 
中 ， 每 条 线 代 表 着 一 个 hi 的 决策 边界 ， 对 应 的 箭头 指向 边界 的 hh” 区 域 。 整 个 表示 在 这 些 半 平 
面 的 每 个 相交 区 域 都 指定 一 个 唯一 值 。 例 如 ， 表 示 值 为 [1, 1, 1] ”对 应 着 区 域 

hi OAS 门 ha 。 可 以 将 以 上 表示 和 图 15.8 中 的 非 分 布 式 表示 进行 比较 。 在 输入 维度 是 d 的 一 
般 情 况 下 ， 分 布 式 表示 通过 半空 间 〈 而 不 是 半 平 面 ) 的 交叉 分 割 假 q 。 上 有 具有 n 个 特征 的 分 布 式 3 
示 给 O(n 5 ) 个 不 同 区域 分 配 唯一 的 编码 ， 而 具有 n 个 样本 的 最 近邻 算法 只 能 给 n 个 不 同 区 域 分 配 

















唯一 的 编码 。 因 此 ， 分 布 式 表示 能 够 比 非 分 布 式 表示 多 分 配 指数 级 的 区 域 。 注 意 并 非 所 有 的 h 
值 部 是 可 取 的 (这 个 例子 中 没有 = 0) ) ， 在 分 布 式 表示 上 的 线性 分 类 需 不 能 加 每 个 相 邻 区 域 
配 不 同 的 奖 别 标识 ， 甚 全 深度 线性 国 值 网 络 的 VC 维 只 有 O(w log wj)《“ 其 中 w 和 是 权重 数目 ) 

(Sontag, 1998) 。 强 表示 层 和 弱 分 类 器 层 的 组 合 是 一 个 强 正 则 化 项 。 试 图 学 习 “ 人 ”和 “ 非 人 ” 概 
念 的 分 类 器 不 需要 给 表示 为 “ 戴 眼 镜 的 女人 ”和 “没有 戴 眼 镜 的 男人 ”的 输入 分 配 不 同 的 类 别 。 容 
量 限 制 或 励 每 个 分 类 套头 注 少 数 几 个 hi ， 或 励 h 以 线性 可 分 的 方式 学 习 表 示 这 些 英 别 


以 下 是 基于 非 分 布 式 表示 的 学 习 算法 的 示例 : 


。 聚 类 算法 ， 包 含 k-means 算 法 : 每 个 输入 点 恰好 分 配 到 一 个 类 别 。 

e。 上 k- 最 近邻 算法 : 给 定 一 个 输入 ， 一 个 或 几 个 模板 或 原型 样本 与 之 天 
联 。 在 k>1 的 情况 下 ， 每 个 输入 都 使 用 多 个 值 来 摘 述 ， 但 是 它们 不 
能 役 此 分 开 控 制 ， 因 此 这 不 能 算 真 正 的 分 布 式 表示 。 

e RRM: 给 定 输入 时 ， 只 有 一 个 时 节点 《和 从 根 到 访 叶 下 点 路 径 上 
的 点 ) 是 被 激活 的 。 

。 出 斯 混合 体 和 专家 混合 体 : 模板 《〈 聚 类 中 心 ) 或 专家 关联 一 个 激活 
的 程度 。 和 kk- 了 最 近邻 算法 一 样 ， 每 个 输入 用 多 个 值 表示 ， 但 是 这 些 
值 不 能 轻 多 地 彼此 分 开 控 制 |。 

。 BA my CAS ht) 的 核 机 如 尽管 每 个 “ 文 持 同 
量 ? 或 模板 样本 的 激活 程度 是 连续 值 ， 但 仍然 会 出 现 和 高 斯 混合 体 
相同 的 问题 。 

。 基于 n-gram 的 语言 或 翻译 模型 : 根据 后 缀 的 树 结 构 划 分 上 下 文集 合 
(符号 序列 ) 。 例 如 ， 一 个 叶 书 点 可 能 对 应 于 最 后 两 个 单词 w | Fw 
， “”。 树 上 的 每 个 叶 忆 点 分 别 估 计 单 独 的 参数 (有 些 共 至 也 是 可 能 
的 ) 。 














图 15.8 ”最 近邻 算法 如 何 将 输入 空间 分 成 不 同 区 域 的 图 示 。 最 近邻 算法 古 一 个 基于 非 分 布 式 表 
示 的 学 习 算 法 的 示例 。 不 同 的 非 分 布 式 算法 可 以 上 共有 不 同 的 几何 形状 ,但 是 它们 通 第 将 输入 空 
间 分 成 区 域 ， 每 个 区 域 具有 不 同 的 参数 。 非 分 布 式 方法 的 优点 是 ， 给 定 足 够 的 参数 ， 它 能 够 拟 
合 一 个 训练 集 ， 而 不 需要 复杂 的 优化 算法 。 因 为 它 生 接 为 每 个 区 域 独立 地 设置 不 同 的 参数 。 缺 
扩 是 ， 非 分 布 式 表示 的 模型 只 能 通过 平 消 先 验 来 局 部 地 疙 化 ， 因 此 学 习 波 峰 波 谷 多 于 样本 的 复 
末了 水 数 时 ， 访 方法 是 不 可 行 的 。 和 分 布 式 表示 的 对 比 ， 可 以 参照 图 15.7 


对 于 部 分 非 分 布 式 算法 而 语 ， 有 些 输 出 并 非 是 恒定 的 ， 而 是 在 相 邻 区 域 
IAAT. 参数 〈 或 样本 ) 的 数量 和 它们 能 够 定义 区 域 的 数量 之 则 仍 你 
持 线 性 关系 。 


将 分 布 式 表示 和 人 符号 表示 区 分 开 来 的 一 个 重要 概念 是 ， 由 不 同 概 念 之 间 
的 共享 属性 而 产生 的 汉化 。 作 为 纯 符 号 ,，“ 猫 ?和 “ 狗 ” 之 间 的 距离 和 任意 
其 他 两 种 符号 的 距离 一 样 。 然 和 而， 如果 将 它们 与 有 意义 的 分 布 式 表 示 相 
关联 ， 那 么 关于 猫 的 很 多 特点 可 以 推广 到 狗 ， 反 之 亦 然 。 例 如 ， 我 们 的 
分 布 式 表示 可 能 会 包含 诸如 “具有 皮毛 ”或 “ 腿 的 数目 ”这 类 

在 “ 独 ” 和 “ 狗 ” 的 租 入 上 具有 相同 值 的 项 。 正 如 第 12.4.2 节 所 讨论 的 ， 作 
用 于 单词 分 布 式 表示 的 神经 语言 模型 比 其 他 直接 对 单词 one-hot 表 示 进 行 
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As CDAD 在 距离 上 接近 ， 这 征 纯粹 的 符 扎 表示 所 缺少 的 特 
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在 学 习 算法 中 使 用 分 布 式 表示 何 时 以 及 为 什么 具有 统计 优势 ? 当 一 个 明 
显 复杂 的 结构 可 以 用 较 少 参数 紧 致 地 表示 时 ， 分 布 式 表示 具有 统计 上 的 
优点 。 一 些 传统 的 非 分 布 式 学 习 算法 仅仅 在 平滑 假设 的 情况 下 能 够 泛 

化 ， 也 就 是 说 如 果 usv， 那 么 学 习 到 的 目标 函数 { 通 常 具有 f(usf(V) 的 性 

质 。 有 许多 方法 来 形式 化 这 样 一 个 假设 ， 但 其 结果 是 如 果 我 们 有 一 个 样 
本 (x,y)， 并 且 我 们 知道 f(x)xy， 那 么 我 们 可 以 选取 一 个 估计 近似 地 满 
足 这 些 限制 ， 并 且 当 我 们 移动 到 附近 的 输入 多 + EM, f 尽 可 能 少 
地 发 生 改变 。 显 然 这 个 假设 是 非常 有 用 的 ， 但 是 它 会 遭受 维 数 灾难 : 学 
习 出 一 个 能 够 在 很 多 不 同 区 域 上 增加 或 减少 很 多 次 的 目标 函数 号 ， 我 们 
可 能 需要 至 少 和 可 区 分 区 域 数量 一 样 多 的 样本 。 我 们 可 以 将 每 一 个 区 域 
视 为 一 个 类 别 或 符号 ;通过 让 每 个 符号 〈 或 区 域 ) 具有 单独 的 自由 度 ， 

我 们 可 以 学 习 出 从 符号 映射 到 值 的 任意 解码 器 。 然 而 ， 这 不 能 推广 到 新 
区 域 的 新 符号 上 。 


如 栗 我 们 羊 运 的 话 ， 除 了 平 清 忆 外， 目标 函数 可 能 还 有 一 些 其 他 规律 。 
Hu, RARAMEN NEDA ENR ERP E 
对 象 的 空间 变换 不 对 应 输入 空间 的 平 请 变换 ) E PRA OT R. 


让 我 们 检 碍 分 布 式 表示 学 习 算法 的 一 个 特殊 情况 ， 它 通过 对 输入 的 线性 
函数 进行 阐 值 处 理 来 提取 二 元 特征 。 该 表示 中 的 每 个 二 元 特征 将 限 4 分 
成 一 对 半空 间 ， 如 图 15.7 所 示 。n 个 相应 半空 间 的 指数 级 数量 的 交集 确 
定 了 该 分 布 式 表示 学 习 器 能 够 区 分 多 少 区 域 。 空 间 民 4 中 的 n 个 超 平面 
的 排列 组 合 能 够 生成 多 少 区 间 ? 通过 应 用 关于 超 平 面 交 集 的 一 般 结 果 
(Zaslavsky, 1975) ， 我 们 发 现 CPascanu et al，，2014b)〉 这 个 二 元 特 
全 表示 能 够 区 分 的 空间 数量 是 


> ( = O(n) (15.4) 
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多 项 式 级 增长 。 


这 提供 了 分 布 式 表示 泛 化 能 力 的 一 种 几何 解释 : Ond) 个 参数 〈 空 间 
RA 中 的 n 个 线性 阔 值 特征 ) 能够 明确 表示 输入 空间 中 O(n 4 ) 个 不 同 区 
域 。 如 果 我 们 没有 对 数据 做 任何 假设 ， 并 且 每 个 区 域 使 用 唯一 的 符号 来 
表示 ， 每 个 符号 使 用 单独 的 参数 去 识别 了 Rd ”中 的 对 应 区 域 ， 那 么 指定 
O(n 4 ) 个 区 域 需要 O(n d ) 个 样本 。 更 一 般 地 ， 分 布 式 表示 的 优势 还 可 以 
体现 在 我 们 对 分 布 式 表示 中 的 每 个 特征 使 用 非 线性 的 、 可 能 连续 的 特征 
提取 器 ， 而 不 是 线性 阔 值 单元 的 情况 。 在 这 种 情况 下 ， 如 果 上 县 有 K 个 参 
数 的 参数 变换 可 以 学 习 输 入 空间 中 的 r 个 区 域 k K r >), Fau 
果 学 习 这 样 的 表示 有 助 于 关注 的 任务 ， 那 么 这 种 方式 会 比 非 分 布 式 情景 
(我 们 需要 O(D 个 样本 来 获得 相同 的 特征 ， 将 输入 空间 相关 联 地 划分 成 r 
个 区 域 。) 泛 化 得 更 好 。 使 用 较 少 的 参数 来 表示 模型 意味 着 我 们 只 需 拟 
合 较 少 的 参数 ， 因 此 只 需要 更 少 的 训练 样本 去 获得 良好 的 泛 化 。 


另 一 个 解释 基于 分 布 式 表示 的 模型 泛 化 能 力 更 好 的 说 法 是 ， 尽 管 能 够 明 
硝 地 编码 这 么 多 不 同 的 区 域 ， 但 它们 的 容量 仍然 是 很 有 限 的 。 例 如 ， 线 
性 阀 值 单元 神经 网 络 的 VC 维 仅 为 O(w。 log ” w)， 其 中 w 是 权重 的 数目 
(Sontag, 1998) 。 这 种 限制 出 现 的 原因 是 ， 虽 然 我 们 可 以 为 表示 空间 
分 配 非 常 多 的 唯一 人 码 ， 但 是 我 们 不 能 完全 使 用 所 有 的 码 空 间 ， 也 不 能 使 
用 线性 分 类 器 学 习 出 从 表示 空间 h 到 输出 y 的 任意 函数 映射 。 因 此 使 用 
与 线性 分 类 帮 相 结合 的 分 布 式 表示 传达 了 一 种 先 验 信 念 ， 每 识别 的 类 在 
h 代表 的 潜在 因果 因子 的 函数 下 是 线性 可 分 的 。 我 们 通 第 想 要 学 习 类 
别 ， 例 如 所 有 绿色 对 象 的 图 像 集合 ， 或 是 所 有 汽车 图 像 集 合 ， 但 不 会 古 
需要 非 线 性 XOR 人 逻辑 的 类 别 。 例 如 ， 我 们 通 和 津 不 会 将 数据 划分 成 所 有 红 
色 汽 车 和 绿色 卡车 作为 一 个 集合 ， 所 有 绿色 汽车 和 红色 卡车 作为 另 一 个 


集合 。 


到 目前 为 止 讨论 的 想法 都 是 抽象 的 ， 但 是 它们 可 以 通过 实验 验证 。Zhonu 
et al. (2015) 发 现 ， 在 ImageNet 和 Places 基 准 数据 集 上 训练 的 深度 卷 积 
网 络 中 的 隐藏 单 元 学 成 的 特征 通 第 是 可 以 解释 的 ， 对 应 人 类 目 然 分 配 的 
标 丛 。 在 实践 中 ， 隐 茂 单元 并 不 能 总 是 学 习 出 具有 人 简单 语言 学 名 称 的 事 
物 ， 但 有 趣 的 是 ， 这 些 事物 会 在 那些 最 好 的 计算 机 视觉 深度 网 络 的 顶层 
附近 出 现 。 这 些 特征 的 共同 之 处 在 于 ， 我 们 可 以 设想 学 习 其 中 的 每 个 特 
征 不 需要 知道 其 他 所 有 特征 的 所 有 配置 。Radford et al. (2015) 发现 生 
成 模型 可 以 学 习 人 上 脸 图 像 的 表示 ， 在 表示 空间 中 的 不 同方 同 捕 效 不 同 的 
潜在 变 才 因 系 。 图 15.9 展 示 表 示 空 间 中 的 一 个 方 回 对 应 看 该 人 是 男性 还 
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图 15.9 ”生成 模型 学 到 了 分 布 式 表示 ， 能 够 从 戴 眼 镜 的 概念 中 区 分 性 别 的 概念 。 如 果 我 们 从 一 
个 戴 眼 镜 的 男人 的 概念 表示 回 量 开始 ， 然 后 减 去 一 个 没 戴 眼镜 的 男人 的 概念 表示 同 量 ， 最 后 加 
上 一 个 没 戴 眼镜 的 女人 的 概念 表示 回 量 ， 那 么 我 们 会 得 到 一 个 戴 眼 镜 的 女人 的 概念 表示 回 量 。 
生成 模型 将 所 有 这 些 表 示 回 量 正 确 地 解 权 为 可 被 识别 为 正确 类 别 的 图 像 。 图 所 转载 许可 目 
Radford et al. (2015) 
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统计 效率 。 在 本 和 中 ， 我 们 描述 如 何 将 类 似 结 果 更 一 般 地 应 用 于 其 他 具 
有 分 布 式 隐 羧 表示 的 模型 。 


在 第 15.4 市 中 ， 我 们 看 到 了 一 个 生成 模型 的 示例 ， 能 够 学 习 人 上 脸 图 像 的 
潜在 解释 因子 ， 包 括 性 列 以 及 是 全 佩戴 眼镜 。 人 完成 这 个 任务 的 生成 模型 
旦 基于 一 个 深度 神经 网 络 的 。 浅 层 网 络 例如 线性 网 络 不 能 学 习 出 这 些 抽 
象 解释 因子 和 图 像 像 系 之 间 的 复杂 关系 。 在 这 个 任务 和 其 他 AI 任 务 中 ， 
这 些 因 子 几 乎 彼此 独立 地 被 抽取 ， 但 仍然 对 应 到 有 意义 输入 的 因素 ， 很 
AY Hever EPHRATA A AE re EFA PEM R. BNI A i 
要 深度 分 布 式 表示 ， 需 要 许多 非 线 性 组 合 来 获得 较 局 级 的 特征 〈 被 视 为 
输入 的 函数 ) 或 因子 《被 视 为 生成 原因 ) 。 


在 许多 不 同情 景 中 已 经 证 明 ， 非 线性 和 重用 特征 层次 结构 的 组 合 来 组 织 
计算 ， 可 以 使 分 布 陈 表示 获得 指数 级 加 速 之 外 ， 还 可 以 获得 统计 效率 的 
指数 级 提升 。 许 多 种 类 的 只 有 一 个 隐 叫 层 的 网 络 〈 例 如 ， 上 其 有 饱和 非 线 
性 ， 布 尔 门 ， 和 / 积 ， 或 RBF 单元 的 网 络 ) AAT LA A Beats. TE 
给 定 足 人 够 多 隐藏 单 元 的 情况 下 ， 这 个 模型 族 是 一 个 万 能 近似 硕 ， 可 以 在 
任意 非 零 允 错 级 别 近 似 一 大 类 函数 (包括 所 有 连续 孙 数 ) PATI, Batik 
单元 所 知 的 数量 可 能 会 非 第 大 。 关 于 深层 染 构 表达 能 力 的 理论 结果 表 
HA, AG eR CW AY DA rey ICH TR EK J AY PRR I eS, TEER EAN 
够 【深度 为 2 或 Kk-1) 时 会 需要 指数 级 〈 相 对 于 输入 大 小 而 言 ) 的 隐藏 单 
Tuo 
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有 单个 隐藏 层 〈 淤 变量) EARRA CHLTESCIR BURA SAL. TK 
度 信念 网 络 ) EHA pea Wes (Le Roux and Bengio, 2008, 
2010; Montufar and Ay, 2011; Montufar, 2014; Krause et al. , 
2013) 5 


在 第 6.4.1 和 中 ， 我 们 看 到 足够 深 的 前 饭 网 络 会 比 深 度 不 够 的 网 络 具 有 指 
数 级 优势 。 这 样 的 结束 也 能 从 诺 如 概率 模型 的 其 他 模型 中 获得 。 和 一 积 
网 络 (sum-product network, SPN) (Poon and Domingos, 2011) 是 这 
样 的 一 种 概率 模型 。 这 些 模型 使 用 多 项 陈 回 路 来 计算 一 组 随机 变量 的 概 
率 分 布 。Delalleau and Bengio (2011) 表明 存在 一 种 概 认 分布 ， 对 SPN 
的 最 小 深度 有 要 求 ， 以 避免 模型 规模 呈 指 数 级 增长 。 后 来 ，Martens and 
Medabalimi (2014) 表明 ， 任 意 两 个 有 限 深度 的 SPN 之 间 部 会 存在 显 芋 
过 寞 ， 并 有 晶 一 些 使 SPN 允 于 处 理 的 约束 可 能 会 限制 其 表示 能 


另 一 个 有 趣 的 进展 是 ， 一 系列 和 关 积 网 络 相 关 的 深度 回路 族 表 达能 力 的 
理论 结果 ， 即 使 让 浅 度 回路 只 去 近似 深度 回路 计算 的 图 数 ， 也 能 突出 反 
映 深 度 回 路 的 指数 级 优势 (Cohen etal., 2015) 。 相 比 之 下 ， 以 前 的 理 
论 工作 只 研究 了 浅 度 回路 必须 精确 复制 特定 函数 的 情况 。 


15.6 ”提供 发 现 潜在 原因 的 线索 
我 们 回 到 最 初 的 问题 之 一 来 结束 本 章 ; 什么 原因 能 够 使 一 个 表示 比 另 一 


个 表示 更 好 ? 首先 在 第 15.3 节 中 介绍 的 一 个 答案 是 ， 一 个 理想 的 表示 能 
够 区 分 生成 数据 变化 的 潜在 因 末 因子 ， 特 列 是 那些 与 我 们 的 应 用 相关 的 
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监督 学 习 提供 了 非常 强 的 线索 ; 每 个 观察 回 量 x Wey » “EW Re 
指定 了 人 至少 一 个 变 产 因素。 更 一 般 地 ， 为 了 利用 丰富 的 未 标注 数据 ， 表 
示 学 习 会 使 用 关于 潜在 因 系 的 其 他 不 太 卫 接 的 提示 。 这 些 所 示 包 含 一 些 
我 们 (学 习 算 法 的 设计 者 ) 为 了 引 叶 和 学习 融和 而 强加 的 隐 式 完 验 信息 。 话 
如 没有 人 免费 午餐 定理 的 这 些 结果 表明 ， 正 则 化 集 略 对 于 获得 民 好 泛 化 古 
很 有 必要 的 。 当 不 可 能 找到 一 个 普 表 民 好 的 正则 化 案 略 时 ， 深 度 学 习 的 
一 个 目标 古 找 到 一 僚 相 当地 用 的 正则 化 策略 ， 使 其 能 够 适用 于 各 种 各 样 
AI 任务 (类 似 于 人 和 动物 能 够 解决 的 任务 〉。 


在 些 ， 我 们 提供 了 一 些 通 用 正则 化 案 略 的 列表 。 访 列表 显然 是 不 评 尺 
的 ， 但 是 给 出 了 一 些 学 习 息 法 是 如 何 友 现 对 应 潜在 因 系 的 特征 的 上 其 体 示 
例 。 坟 列表 在 Bengio etal. (2013d) 的 第 3.1m 中 提出 ， 这 里 进行 了 部 分 
拓展 。 
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全 学 习 算 法 都 利用 了 这 个 想法 ， 但 它 不 能 克服 维 数 灾 难 难题 。 

线性 : 很 多 学 习 算 法 假定 一 些 变 量 之 间 的 关系 是 线性 的 。 这 使 得 算 
法 能 够 预测 远离 观测 数据 的 点 ， 但 有 时 可 能 会 导致 一 些 极 妆 的 预 
测 。 大 多 数 简 单 的 学 习 算 法 不 会 做 平 请 假设 ， 而 会 做 线性 假说 。 这 
些 假设 实际 上 是 不 同 的 ， 有 具有 很 大 权重 的 线性 函数 在 高 维 空 间 中 可 
能 不 是 非常 平滑 的 。 参 看 Goodfellow et al. (2014b) 了 解 关 于 线性 
假设 局 限 性 的 进一步 讨论 。 

多 个 解释 因子 : 许多 表示 学 习 算 法 受 以 下 假说 的 月 发 ， 数 据 是 由 多 
个 淤 在 解释 因子 生成 的 ， 并 且 给 定 每 一 个 因子 的 状态 ， 大 多 数 任 务 
都 能 轻易 解决 。 第 15.3 节 摘 述 了 这 种 观点 如 何 通 过 表示 学 习 来 局 发 
半 监 督学 习 的 。 学 习 p( x ) 的 结构 要 求学 习 出 一 些 对 建 模 p(y | x ) 
同样 有 用 的 特征 ， 因 为 它们 都 涉及 相同 的 潜在 解释 因子 。 第 15.4 市 
介绍 了 这 种 观点 如 何 局 发 分 布 式 表示 的 使 用 ， 表 示 空 间 中 分 离 的 方 
回 对 应 着 分 离 的 变 关 因素 。 

因果 因子 : 诅 模 型 认为 学 成 表示 所 摘 述 的 变 委 因 系 是 观察 数据 x 的 
成 因 ， 而 并 非 反 过 来 。 正 如 第 15.3 节 中 讨论 的 ， 这 对 于 半 监 督学 习 
是 有 利 的 ， 妆 淤 在 成 因 上 的 分 布 发 生 改 变 ， 或 者 我 们 应 用 模型 到 一 
个 新 的 任务 上 时 ， 学 成 的 模型 都 会 更 加 角 标 。 


e。 深度 ， 或 者 解释 因子 的 层次 组 织 : THR Be eS fa] 
念 层次 化 来 定义 。 从 夯 一 个 角 虚 来 看 ， 深 度 架 构 表 达 了 我 们 认为 任 
务 应 该 由 多 个 程序 步骤 完成 的 观念 ， 其 中 每 一 个 步骤 回调 到 先前 步 
又 处 理 之 后 的 输出 。 

FES IFES AA: 当 多 个 对 应 到 不 同 变 量 y ; 的 任务 共 孚 相同 的 输 
Ax 时 ， 或 者 当 每 个 任务 关联 到 全 局 输入 x 的 子 集 或 者 函数 f (x ) 
时 ， 我 们 会 假设 每 个 变量 y ; 关联 a 到 来 自 相 关 因 系 h 公共 池 的 不 同 子 
集 。 因 为 这 些 子 集 有 重 登 ， 所 以 通过 共享 的 中 间 表 示 PQh | x ) 来 学 
习 所 有 的 P(y; | x Bee EES FESS HE o 

流 形 : 概率 质量 集中 ， 并 用 集中 区 域 是 局 部 连通 的 ， 且 占据 很 小 的 
体积 。 在 连续 情况 下 ， 这 些 区 域 可 以 用 比 数 据 所 在 原始 空间 低 很 多 
维 的 低 维 流 形 来 近似 。 很 多 机 需 学 习 算 法 只 在 这 些 流 形 上 有 效 
(Goodfellow et al. , 2014b) 。 一 些 机 器 学 习 和 算法， 特别 是 目 编 码 
厂 ， 会 试图 显 式 地 和 学习 流 形 的 结构 。 

目 然 聚 类 : 很 多 机 和 需 学 习 算 法 假设 输入 空间 中 每 个 连通 流 形 可 以 被 
分 配 一 个 蛙 独 的 类 。 数 据 分 布 在 许多 个 不 连通 的 流 形 上 ， 但 相同 流 
形 上 数据 的 类 别 是 相同 的 。 这 个 假设 激励 了 各 种 学 习 算 法 ， 包 括 正 
Desh. SOM. MI IEW a Ras YT Z - 

时 间 和 空间 相干 性 : 慢 特 征 分 析 和 相关 的 算法 假设 ， 最 重要 的 解释 
因子 随时 间 变 化 很 缓慢 ， 或 者 至 少 假设 了 预测 真实 的 潜在 解释 因子 比 
预测 诸如 像 系 值 这 类 原始 观 聚 会 更 容易 些 。 斌 者 可 以 参考 第 13.3 
IRIE: 假设 大 部 分 特征 和 大 部 分 输入 不 相关 ， 如 在 表示 猎 的 图 像 
上 时， 没有 必要 使 用 象 盟 的 特征 。 因 此 ， 我 们 可 以 强加 一 个 先 验 ， 任 
e iiiaio 
J 。 

PATKE: TER ee, AFAR fis) FY H. 
关联 。 最 简单 的 可 能 是 边缘 独立 ， 即 已 () = m P(h;) > {Axe 
AVE RB YR ee A oi 0S As AT BEAN HY RS AR HE GA ERK 
AY UM VE Pe Ea HR, FR AUER TE ERY J A ZR 
性 预测 堪 或 分 解 的 先 验 。 


表示 等 习 的 概念 将 许多 深度 学 习 形 式 联 系 在 了 一 起 。 前 馈 网 络 和 循环 网 
络 ， 目 编码 此 和 深度 概率 模型 部 在 学 习 和 使 用 表示 。 和 学 习 最 佳 表 示 仍 然 
是 一 个 令 人 兴 否 的 研究 方 问 。 


(一般 来 说 ， 我 们 可 能 会 想 要 学 习 一 个 函数 ， 这 个 函数 在 指数 级 数量 区 域 的 表现 都 是 不 同 
的 : 在 d- 维 空间 中 ， 为 了 区 分 每 一 维 ， 至 少 有 两 个 不 同 的 值 。 我 们 想 要 函数 f 区 分 这 2 4 个 不 同 
的 区 域 ， 需 要 O(2 d) 量 级 的 训练 样本 。 


第 16 章 “深度 学 习 中 的 结构 化 概率 模型 


深度 学 习 为 研究 着 们 提供 了 许多 建 模 方 式 ， 用 以 设计 以 及 摘 述 算法 。 其 
中 一 种 形式 是 结构 化 概率 模型 (structured probabilistic model) 的 思 
想 。 我 们 曾经 在 第 3.14 节 中 简要 讨论 过 结构 化 概率 模型 。 此 前 简要 的 介 
绍 已 经 足够 使 我 们 充分 了解 如 何 使 用 结构 化 概率 模型 作为 摘 述 第 2 部 分 
中 未 些 算 法 的 语言 。 现 在 在 第 3 部 分 ， 我 们 可 以 看 到 结构 化 概率 模型 是 
许多 深度 学 习 重 要 研究 方 同 的 关键 组 成 部 分 。 作 为 讨论 这 些 研究 方 同 的 
预备 知识 ， 本 草 将 更 加 详细 地 摘 述 结构 化 概率 模型 。 本 章 内 容 是 目 洽 

的 ， 所 以 在 阅读 本 章 之 前 读者 不 需要 回顾 之 前 的 介绍 。 


结构 化 概 座 模型 使 用 图 来 摘 述 概 座 分 布 中 随机 变量 之 则 的 直接 相互 作 
用 ， 从 而 摘 述 一 个 概率 分 布 。 在 这 里 我 们 使 用 了 图 论 〈 一 系列 结 点 通过 
一 系列 边 来 连接 ) 中 “图 ”的 概念 ， 由 于 模型 结构 是 由 图 定义 的 ， 所 以 这 
些 模 型 也 通 妆 被 称 为 图 檬 型 (graphical model) 。 


图 模型 的 研究 社 群 是 巨大 的 ， 并 提出 过 大 量 的 模型 、 训 练 算法 和 推断 算 
法 。 在 本 间 中 ， 我 们 将 介绍 图 模型 中 几 个 核心 方法 的 基本 背景 ， 并 日 重 
点 摘 述 已 被 证 明 对 深度 学 习 社 群 最 有 用 的 观点 。 如 果 你 已 经 熟知 图 模 
型 ， 那 么 你 可 以 跳 过 本 章 的 绝 大 部 分 。 然 而， 我 们 相信 和 即使 是 资深 的 图 
模型 方 回 的 研究 者 也 会 从 本 章 的 最 后 一 节 中 获 益 菲 浅 ， 详 见 第 16.7 市 ， 
其 中 我 们 强调 了 在 深度 学 习 算 法 中 使 用 图 模型 的 独特 方式 。 相 比 于 其 他 
图 模型 研究 领域 的 是 ， 深 度 学 习 的 研究 者 们 通常 会 使 用 完全 不 同 的 模型 
结构 、 学 习 筑 法 和 推 师 过 程 。 在 本 章 中 ， 我 们 将 指明 这 种 区 别 并 解释 其 
中 的 原因 。 


我 们 背 完 介绍 了 构建 大 规模 概率 模型 时 面临 的 挑战 。 之 后 ， 我 们 介绍 如 
何 使 用 一 个 图 来 插 述 概率 分 布 的 结构 。 尺 官 这 个 方法 能 够 帮助 我 们 解决 
许多 挑 成 和 问题 ， 它 本 号 仍 有 很 多 缺陷 。 图 模型 中 的 一 个 主要 难点 融和 是 
判断 哪些 变量 之 间 存 在 百 接 的 相互 作用 关系 ， 也 惑 是 对 于 给 定 的 问题 哪 


一 种 图 结构 是 最 适合 的 。 在 第 16.5 蔬 中， 我们 通过 了 解 依赖 
(dependency) ， 人 简要 概括 了 解决 这 个 难点 的 两 种 方法 。 最 后 ， 作 为 本 
章 的 收尾 ， 我 们 在 第 16.7 市 中 讨论 深度 学 习 人 研究 者 使 用 图 檬 型 特定 方式 
的 独特 之 处 。 


16.1 非 结构 化 建 模 的 挑战 


深度 学 习 的 目标 古 使 得 机 各 学 习 能 够 解决 计 多 人 工 乔 能 中 哎 需 解决 的 挑 
战 。 这 也 意味 看 它们 能 够 理解 具有 丰富 结构 的 噩 维 数据 。 举 个 例子 ， 我 
们 希望 AI 的 算法 能 够 理解 自然 图 片山 ， 表 示 语 音 的 声音 信号 和 包含 许多 
词 和 标 后 的 文档 。 


分 类 问 题 可 以 把 这 样 一 个 来 目 局 维 分 布 的 数据 作为 输入 ， 然 后 使 用 一 个 
类 别 的 标签 来 概括 它 一 一 这 个 标签 既 可 以 是 照 厂 中 有 什么 物品 ， 一 上段 语 
冲 中 次 的 是 哪个 单词 ， 也 可 以 是 一 段 文档 摘 述 的 是 哪个 话题 。 这 个 分 类 
过 程 丢 莽 了 输入 数据 中 的 大 部 分 信息 ， 然 后 产生 单个 值 的 输出 (或 者 是 
天 于 单个 得 出 值 的 概率 分 布 ) 。 这 个 分 类 带 通 第 可 以 忽略 输入 数据 的 很 
多 部 分 。 例 如 ， 妆 我 们 识别 一 张 照 厂 中 的 一 个 物体 时 ， 我 们 通 第 可 以 忽 
HS EA Ar E E o 
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包括 以 下 儿 个 。 


。 佑 计 密度 函数 : 给 定 一 个 输入 x ， 机 器 学 习 系 统 返回 一 个 对 数据 
生成 分 布 的 真实 密度 函数 p(x ) 的 估计 。 这 只 需要 一 个 输出 ， 但 它 需 
要 完全 理解 整个 输入 。 即 使 向 量 中 只 有 一 个 元 素 不 太 正 常 ， 系 统 也 
会 给 它 赋 予 很 低 的 概率 。 i 

。 去 噪 : ARETE MARA ML A AMR o MEJA 
统 返回 一 个 对 原始 的 真实 x 的 估计 。 举 个 例子 ， 有 时 候 机 器 学 习 系 

统 需要 从 一 张 老 相 片 中 去 除 灰 尘 或 者 抓 痕 。 这 个 系统 会 产生 多 个 输 

出 值 〈 对 应 着 估计 的 干净 样本 x 的 每 一 个 元 素 ) ， 并 且 需 要 我 们 有 

一 个 对 输入 的 整体 理解 (因为 即使 只 有 一 个 损坏 的 区 域 ， 仍 然 会 显 

示 最 终 估计 被 损坏 ) 。 

缺失 值 的 填补 : ”给 定 x 的 某 些 元 素 作为 观察 值 ， 模 型 被 要 求 返回 

一 个 x 一 些 或 者 全 部 未 观察 值 的 估计 或 者 概率 分 布 。 这 个 模型 返回 

的 也 是 多 个 输出 。 由 于 这 个 模型 需要 恢复 x 的 每 一 个 元 素 ， 所 以 它 

必须 理解 整个 输入 。 

。 采 样 : 模型 从 分 布 p( x ) 中 抽取 新 的 样本 。 其 应 用 包括 语音 合成 ， 


即 产 生 一 个 听 起 来 很 像 人 说 话 的 声音 。 这 个 模型 也 需要 多 个 输出 以 
及 对 输入 整体 的 民 好 建 模 。 即 使 样本 只 有 一 个 从 错误 分 布 中 产生 的 
元 系 ， 奢 么 采样 的 过 程 也 是 错误 的 。 


图 16.1 中 描述 了 一 个 使 用 较 小 的 目 伏 图片 的 采样 任务 。 


对 上 生长 全 是 上 日 万 随机 变量 的 分 布 建 醒 ， 无 论 从 计算 上 还 是 从 统计 意 
义 上 说 ， 部 是 一 个 极 具 挑战 性 的 任务 。 假 设 我 们 只 想 对 三 值 的 随机 变量 
建 模 。 这 十 一 个 最 简单 的 例子 ， 但 是 我 们 仍然 无 能 为 力 。 对 一 个 只 有 
32x32 像 素 的 彩色 RGB) 图 片 来 说 ， 存 在 2 种 可 能 的 二 值 图片 。 这 
个 数量 已 经 超过 了 103 ， 比 宇宙 中 的 原子 总 数 还 要 多 。 


通 利 意义 上 讲 ， 如 琳 我 们 希望 对 一 个 包 人 mn 个 离散 变量 并 且 每 个 变量 都 
能 取 k 个 值 的 x 的 分 布 建 模 ， 那 么 最 简单 的 表示 PCx ) 的 方法 需要 存储 一 
个 可 以 查询 的 表格 。 这 个 表格 记录 了 每 一 种 可 能 信 的 概率 ， 则 需要 k P 
个 参数 。 


基于 下 述 几 个 原因 ， 这 种 方式 是 不 可 行 的 。 


。 Att: 存储 参数 的 开销 。 除 了 极 小 的 n 和 k 的 值 ， 用 表格 的 形式 来 表 
示 这 样 一 个 分 布 需要 太 多 的 存储 空间 。 

统计 的 高 效 性 : 当 模 型 中 的 参数 个 数 增加 时 ， 使 用 统计 估计 器 估计 
这 些 参数 所 需要 的 训练 数据 数量 也 需要 相应 地 增加 。 因 为 基于 查 表 
的 模型 拥有 天 文 数 字 级 别 的 参数 ， 为 了 准确 地 拟 合 ， 相 应 的 训练 集 
的 大 小 也 是 相同 级 别 的 。 任 何 这 样 的 模型 都 会 导致 严重 的 过 拟 合 ， 
除非 我 们 添加 一 些 额外 的 假设 来 联系 表格 中 的 不 同 元 素 〈( 正 如 第 
12.4.1 节 中 所 举 的 回 退 或 者 平滑 n-gram 模 型 ) 。 

运行 时 间 : 推断 的 开销 。 假 设 我 们 需要 完成 这 样 一 个 推断 的 任务 ， 
其 中 我 们 需要 使 用 联合 分 布 P(x ) 来 计算 某 些 其 他 的 分 布 ， 比 如 说 边 
缘分 布 P(x 1 ) 或 者 是 条 件 分 布 P(x，| x1)。 计 算 这 样 的 分 布 需 要 对 整 
个 表格 的 菜 些 项 进行 求 和 操作 ， 因 此 这 样 的 操作 的 运行 时 间 和 上 述 
高 昂 的 内 存 开销 是 一 个 级 别 的 。 

运行 时 间 : 采样 的 开销 。 类 似 地 ， 假 设 我 们 想 要 从 这 样 的 模型 中 采 
样 。 最 简单 的 方法 就 是 从 均匀 分 布 中 采样 ，u~U(0,1)， 然 后 把 表格 
中 的 元 素 累加 起 来 ， 直 到 和 大 于 u， 然 后 返回 最 后 一 个 加 上 的 元 
素 。 最 差 情况 下 ， 这 个 操作 需要 读 取 整个 表格 ， 所 以 和 其 他 操作 一 


样 ， 它 也 需要 指数 级 别 的 时 间 。 





图 16.1 ”自然 图 片 的 概率 建 模 。 (E) CIFAR-10 数 据 集 (Krizhevsky and Hinton, 2009) 中 的 
32x32 像 素 的 样 例 图 片 。〈 下 ) 从 这 个 数据 集 上 训练 的 结构 化 概率 模型 中 抽出 的 样本 。 每 一 个 样 
本 都 出 现在 与 其 欧式 距离 最 近 的 训练 样本 的 格 点 中 。 这 种 比较 使 得 我 们 发 现 这 个 模型 确实 能 够 
生成 狐 的 图 厂 ， 而 不 是 记 住 训练 样本 。 为 了 方便 展示 ， 两 个 集合 的 图 厂 痢 经 过 了 微调 。 图 片 经 
Courville etal. (2011a) 许可 转载 


基于 表格 操作 的 方法 的 主要 问题 是 我 们 显 式 地 对 每 一 种 可 能 的 变量 子 集 
所 产生 的 每 一 种 可 能 类 型 的 相互 作用 建 模 。 在 实际 问题 中 我 们 过 到 的 概 
率 分 布 远 比 这 个 简单 。 通 常 ， 许 多 变量 只 是 间接 地 相互 作用 。 


例如 ， 我 们 想 要 对 接力 跑步 比赛 中 一 个 队伍 完成 比赛 的 时 间 进 行 建 模 。 
假设 这 个 队伍 有 3 名 成 员 : Alice、Bob 和 Carol。 在 比赛 开始 时 ，Alice 拿 
着 接力 棱 ， 开 始 跑 第 一 段 距 离 。 在 跑 完 她 的 路 程 以 后 ， 她 把 棒 递 给 了 

Bob。 然 后 Bob 开 始 跑 ， 再 把 棒 给 Carol，Carol] 跑 最 后 一 棒 。 我 们 可 以 用 


连续 变量 来 建 模 他 们 每 个 人 完成 的 时 间 。 因 为 Alice 第 一 个 跑 ， 所 以 她 的 
完成 时 间 并 不 依赖 于 其 他 的 人 。Bob 的 完成 时 间 依 赖 于 Alice 的 完成 时 
间 ， 因 为 Bob 只 能 在 Alice 跑 完 以 后 才能 开始 踪 。 如 果 Alice 踪 得 更 快 ， 那 
么 Bob 也 会 完成 得 更 快 。 所 有 其 他 关系 都 可 以 被 类 似 地 推出 。 最 后 ， 
Carol 的 完成 时 间 依 赖 于 她 的 两 个 队友 。 如 果 Alice 跑 得 很 乙 ， 那 么 Bob 也 
会 完成 得 更 慢 。 绍 果 ，Carol 将 会 更 晚 开 始 跑 步 ， 因 此 她 的 完成 时 则 也 
更 有 可 能 要 晚 。 然 而 ， 在 给 定 Bob 完 成 时 间 的 情况 下 ，Carol 的 完成 时 间 
只 是 间接 地 依赖 于 Alice 的 完成 时 间 。 如 果 我 们 已 经 知道 了 Bob 的 完成 时 
间 ， 知 道 Alice 的 完成 时 间 对 估计 Carol 的 完成 时 间 并 无 任何 帮助 。 这 意 
味 看 我 们 可 以 通过 仅仅 两 个 相互 作用 来 建 模 这 个 接力 赛 。 这 两 个 相互 作 
用 分 别 是 Alice 的 完成 时 间 对 Bob 的 完成 时 间 的 影响 和 Bob 的 完成 时 间 对 
Carol 的 完成 时 间 的 影响 。 在 这 个 模型 中 ， 我 们 可 以 忽略 第 三 种 间接 的 
相互 作用 ， 即 Alice 的 完成 时 间 对 Carol 的 完成 时 间 的 影 啊 。 


结构 化 概率 模型 为 随机 变量 之 间 的 直接 作用 提供 了 一 个 正式 的 建 模 框 
染 。 这 种 方式 大 大 减少 了 模型 的 参数 个 数 ， 以 全 于 模型 只 圾 要 更 少 的 数 
所 来 进行 有 效 的 估计 。 这 些 更 小 的 模型 大 大 减 小 了 在 柑 型 存储 、 模 型 推 
汤 以 及 从 模型 中 采样 时 的 计算 开销 。 


16.2 ”使 用 图 揪 述 模型 结构 


结构 化 概 座 模型 使 用 图 (在 图 论 中 “ 结 点 ”是 通过 “ 边 ” 来 连接 的 ) 来 表示 
随机 变量 之 则 的 相互 作用 。 每 一 个 结 扣 代 表 一 个 随机 变量 。 每 一 条 边 代 
表 一 个 了 是 接 相互 作用 。 这 些 耳 接 相互 作用 隐 舍 着 其 他 的 间接 相互 作用 ， 

但 是 只 有 年 接 的 相互 作用 会 补习 式 地 建 模 。 


使 用 图 来 手 述 概率 分 布 中 相互 作用 的 方法 个 止 一 种 。 在 下 文中 我 们 会 介 
绍 几 种 最 为 流行 和 有 用 的 方法 。 图 模型 可 以 被 大 致 分 为 两 类 : 基于 有 问 
无 坏 图 的 模型 和 基于 无 癌 图 的 柑 型 。 


16.2.1 有 问 模 型 
有 问 图 模型 ” (directed graphical model) 是 一 种 结构 化 概率 模型 ， 也 被 


称 为 信念 网 络 (belief network) 或 者 贝 叶 斯 网 络 (Bayesian network) 
() (Pearl, 1985) 。 
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方 同 表 示 了 这 个 随机 变量 的 概率 分 布 是 由 其 他 变量 的 概率 分 布 所 定义 
的 。 国 一 个 从 结 点 a 到 结 点 b 的 箭头 表示 了 我 们 用 一 个 条 件 分 布 来 定义 
b， 侧 a 是 作为 这 个 条 件 分 布 从 号 右边 的 一 个 变量 。 换 句 话 说 ，b 的 概率 
分 布依 赖 于 a 的 取 值 。 

我 们 继续 第 16.1 节 上 所 讲 的 接力 赛 的 例 于 ， 我 们 假设 Alice 的 完成 时 间 为 t 0 
，Bob 的 完成 时 间 为 t1 ，Carol 的 完成 时 间 为 t。。 束 像 我 们 之 前 看 到 的 一 
Pe, ty 的 估计 是 依赖 于 to IY, to 的 估计 是 直接 依赖 于 ti 的 ， 但 是 仪 仅 间 
接地 依赖 于 t 0 。 我 们 用 一 个 有 辣 图 模型 来 建 模 这 种 关系 ， 如 图 16.2 所 
不 。 


Alice Bob Carol 





16.2 Fd Be 7 FE DIANA HRN. Alice zt 0 影响 了 Bob 的 完成 时 间 t1 ， 因 为 
Bob 只 能 在 Alice 完 成 比赛 后 才 开 始 。 类 似 地 ，Carol 也 只 会 在 Bob 完 成 之 后 才 开 始 ， 所 以 Bob 的 完 
成 时 间 t 1 直接 影响 了 Carol 的 完成 时 间 t > 


正式 地 说 ， 变 量 x 的 有 向 概率 模型 是 通过 有 向 无 环 图 (y “每 个 结 点 都 是 
模型 中 的 随机 变量 ) 和 一 系列 局 部 条 件 概 座 分 布 local conditional 
probability distribution) p(x; | Pag(x;)) 来 定义 的 ， 其 中 
Pag (Xi ) 表示 结 点 Xi 的 所 有 父 结 点 。x 的 概率 分 布 可 以 表示 为 





p(x) = [L7G | Pag(x:)) (16.1) 


2 


在 之 前 所 述 的 接力 守 的 例子 中 ， 参 考 图 16.2， 这 意味 看 概 京 分 布 可 以 被 
表示 为 


p(to, t1, t2) = p(to)p(ti | to)p(tz | t1) (16.2) 


这 是 我 们 看 到 的 第 一 个 结构 化 概率 模型 的 实际 例子 。 我 们 能 够 检查 这 样 
建 模 的 计算 开销， 为 了 验证 相 比 于 非 结 构 化 建 模 ， 结 构 化 建 柑 为 什么 有 
那么 多 的 优势 。 


假设 我 们 采用 从 第 0 分 钟 到 第 10 分 钟 每 6 秒 一 块 的 方式 离散 化 地 表示 时 
间 。 这 使 得 t 。、t ; Mt 都 是 一 个 有 100 个 取 值 可 能 的 离散 变量 。 如 果 我 
们 尝试 着 用 一 个 表 来 表示 p(t y ,t 1 ,t 。)， 那 么 我 们 需要 存储 999 999 个 值 

(100 个 to 的 可 能 取 值 xt , 的 可 能 取 值 x100 个 t , 的 可 能 取 值 减 去 1， 由 于 
存在 所 有 的 概 雍 之 和 为 1 的 限制 ， 所 以 其 中 有 1 个 值 的 存储 是 多 余 的 ) 。 
友之， 如 采 我 们 用 一 个 表 来 记录 每 一 种 条 件 和 概率 分 布 ， 那 么 表 中 记录 t o 
的 分 布 需要 存储 99 个 值 ， 给 定 to 情况 下 ti; 的 分 布 需要 存储 9900 个 值 ， 给 
定 t] 情况 下 t 。 的 分 布 也 需要 存储 9900 个 值 。 加 起 来 总 共 需 要 存储 19 899 
个 值 。 这 意味 着 使 用 有 问 图 模型 将 参数 的 个 数 减 少 了 超过 50 倍 ! 


通常 意义 上 说 ， 对 每 个 变量 都 能 取 k 个 值 的 n 个 变量 建 模 ， 基 于 建 表 的 方 
法 需要 的 复杂 度 是 O(k * )， 就 像 我 们 之 前 观察 到 的 一 样 。 现 在 假设 我 们 
用 一 个 有 向 图 模型 来 对 这 些 变量 建 模 。 如 果 m 代 表 图 模型 的 单个 条 件 概 
率 分 布 中 最 大 的 变量 数目 〈 在 条 件 符号 的 左右 皆 可 ) ， 那 么 对 这 个 有 向 
模型 建 表 的 复杂 度 大 致 为 O(k ™ )。 只 要 我 们 在 设计 模型 时 使 其 满足 
M < 1 ， 那 么 复杂 度 就 会 被 大 大 地 减 小 。 


换 一 句 话 说 ， 只 要 图 中 的 每 个 变量 部 只 有 少量 的 父 结 把 ， 那 么 这 个 分 布 
束 可 以 用 较 少 的 参数 来 表示 。 图 结构 上 的 一 些 限制 条 件 ， 比 如 说 要 求 这 
个 图 为 一 株 树 ， 也 可 以 保证 一 些 拘 作 《〈 例 如 求 一 小 部 分 变量 的 边缘 或 者 
条 件 分 布 ) EIEE. 


决定 哪些 信息 需要 被 包含 在 图 中 而 哪些 不 需要 是 很 重要 的 。 如 果 变 量 之 
间 可 以 被 假设 为 是 条 件 独 立 的 ， 那 么 这 个 图 可 以 包含 这 种 简化 假设 。 当 
然 也 存在 其 他 类 型 的 简化 图 模型 的 假设 。 例 如 ， 我 们 可 以 假设 无 论 Alice 
的 表现 如 何 ，Bob 总 是 跑 得 一 样 快 (实际 上 ，Alice 的 表现 很 大 概率 会 影 
啊 Bob 的 表现 ， 这 取 诀 于 Bob 的 性 格 。 如 果 在 之 前 的 比赛 中 Alice 跑 得 特 
别 快 ， 这 有 可 能 茎 励 Bob 更 加 努力 并 取得 更 好 的 成 绩 ， 当 然 这 也 有 可 能 
使 得 Bob 过 分 自信 或 者 变 得 懒惰 ) 。 那 么 Alice 对 Bob 的 唯一 影响 就 是 在 
计算 Bob 的 完成 时 间 时 需要 加 上 Alice 的 时 间 。 这 个 假设 使 得 我 们 所 需要 
的 参数 量 从 O(k“ ) 降 到 了 O(k)。 然 而 ， 值 得 注意 的 是 ， 在 这 个 假设 下 t o 


和 t ] 仍然 是 耳 接 相关 的 ， 因 为 t1 表示 的 是 Bob 完 成 时 的 时 间 ， 并 不 是 他 
跑 的 总 时 间 。 这 也 意味 看 图 中 会 有 一 个 从 to 指 同 ti 的 第 尖 。“Bob 的 个 人 
跑步 时 间 相 对 于 其 他 因 隶 是 独立 的 ?这 个 假设 无 法 在 to 、t1 、t， 的 图 中 
航 雪 示 出 来 。 反 之 ， 我 们 只 能 将 这 个 关系 表示 在 条 件 分 布 的 定义 中 。 这 
个 条 件 分 布 不 再 是 一 个 大 小 为 kxk-1 的 分 别 对 应 着 to 、t 1 的 表格 ， 而 是 
一 个 包含 了 k-1 个 参数 的 略微 复 末 的 公式 。 有 问 图 模型 的 语法 并 不 能 对 

ee 它 只 定义 了 哪些 变量 可 以 作为 其 


16.2.2 ”无 同 模 型 


有 癌 图 模型 为 我 们 提供 了 一 种 摘 述 结构 化 概率 模型 的 语言 。 而 另 一 种 各 
见 的 语言 则 是 无 回 模 型 (undirected model) ， 也 被 称 为 马尔 可 夫 随 机 
场 (Markov random field, MRF) 或 者 是 马尔 可 夫 网 络 (Markov 
network) (Kindermann, 1980) > WZ EMIRA ZWAK, Jw 
模型 中 所 有 的 边 都 是 没有 方 回 的 。 


当 和 存在 很 明显 的 理由 田 出 每 一 个 指 癌 特定 方 同 的 稍 尖 时 ， 有 问 柑 型 显然 
最 适用 。 有 问 模 型 中 ， 经 第 存在 我 们 理解 的 具有 因果 天 系 以 及 因果 关系 
有 明确 方 回 的 情况 。 接 力 完 的 例子 就 古 一 个 这 样 的 情况 。 之 前 运动 员 的 
表现 会 影响 后 面 运动 员 的 完成 时 间 ， 而 后 面 运动 员 却 个 会 影 啊 前 面 运动 
员 的 完成 时 间 。 


然而 并 不 是 所 有 情况 的 相互 作用 虱 有 一 个 明确 的 方 回 天 系 。 当 相互 的 作 
用 并 没有 本 质 性 的 指 回 ， 或 者 是 明确 的 双 回 相互 作用 时 ， 使 用 无 同 模 型 
更 加 合适 。 


作为 一 个 这 种 情况 的 例子 ， 假 变 我 们 布 组 对 3 个 二 值 随机 变量 建 便 : 你 
是 人 否 生病 ， 你 的 同事 是 人 否 生 病 以 及 你 的 室友 是 否 生病 。 就 像 在 接力 赛 的 
例子 中 所 作 的 简化 假设 一 样 ， 我 们 可 以 在 这 里 做 一 些 关 于 相互 作用 的 售 
化 假设 。 假 让 你 的 室友 和 同事 并 不 认识 ， 所 以 他 们 不 太 可 能 耳 接 相互 传 
染 一 些 疾 病 ， 比 如 说 感冒 。 这 个 事件 太 过 罕见 ， 所 以 我 们 不 对 此 事件 建 
模 。 然 而 ， 很 有 可 能 其 中 之 一 将 感冒 传染 给 你 ， 然 后 通过 你 再 传染 给 了 
万 一 个 人 。 我 们 通过 对 你 的 同事 传染 给 你 以 及 你 传染 给 你 的 室友 建 模 来 
对 这 种 间接 的 从 你 的 同事 到 你 的 室 到 的 感 骨 传染 建 模 。 


在 这 种 情况 下 ， 你 传染 给 你 的 室友 和 你 的 室友 传染 给 你 部 是 非常 容易 

的 ， 所 以 模型 不 存在 一 个 明确 的 单 同 第 尖 。 这 局 友 我 们 使 用 无 同 模 型 。 
其 中 随机 变量 对 应 看 图 中 的 相互 作用 的 结 皮 。 与 有 问 模 型 相同 的 是 ， 如 
朱 在 无 癌 模 型 中 的 两 个 结 氮 通过 一 条 边 相 连接 ， 那 么 对 应 这 些 结 氮 的 随 
机 变量 相互 之 间 是 耳 接 作用 的 。 不 同 于 有 问 模 型 ， 在 无 问 模型 中 的 边 古 
没有 方 同 的 ， 并 不 与 一 个 条 件 分 布 相关 联 。 


我 们 把 对 应 你 健康 状况 的 随机 变量 记 作 h ，、，， 对 应 你 的 室友 健康 状况 的 
随机 变量 记 作 h,， 你 的 同事 健康 的 变量 记 作 h 。。 图 16.3 表 示 这 种 关系。 


图 16.3 ”表示 你 室友 健康 状况 的 hr 、 你 健康 状况 的 h y 和 你 同事 健康 状况 的 hc 之 间 如 何 相互 影 
啊 的 一 个 无 回 图 。 你 和 你 的 室友 可 能 会 相互 传染 感冒 ， 你 和 你 的 同事 之 间 也 是 如 此 ， 但 是 假设 
你 室友 和 同事 之 间 相 互 不 认识 ， 他 们 只 能 通过 你 来 间接 传染 


正式 地 说 ， 一 个 无 回 模型 是 一 ?1 定义 在 无 向 模型 (y 上 的 结构 化 概率 模 
型 。 对 于 图 中 的 每 一 个 团 信 (i ， 一 个 因子 (factor) q (C) (也 称 为 
团 势 能 (clique potential) ) ， 衡 量 了 团 中 变量 每 一 种 可 能 的 联合 状态 


所 对 应 的 密切 程度 。 这 些 因 子 都 们 限制 为 是 非 负 的 。 它 们 一 起 定义 了 未 
归 一 化 概率 函数 (unnormalized probability function) : 








p(x) = | | HE) (16.3) 
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然而 ， 不 像 册 时期 网络 ， 几 乎 不 存在 团 定 义 的 结构 ， 所 以 不 能 保证 把 它 
们 乘 在 一 起 能 够 得 到 一 个 有 效 的 概率 分 布 。 图 16.4 展 示 了 一 个 从 无 同 模 
型 中 读 取 分 解 信息 的 例子 。 


CCHS 
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在 你 、 你 的 室友 和 同事 之 则 感 旱 传染 的 例子 中 包含 了 两 个 团 。 一 个 团 包 
E Shy Mh 。。 这 个 团 的 因 于 可 以 通过 一 个 胡来 定义 ， 可 能 取 到 下 面 的 





Hye = 1 | 10 


状态 为 1 代表 了 健康 的 状态 ， 相 对 的 状态 为 0 则 表示 不 好 的 健康 状态 〈 即 
感染 了 感冒 ) 。 你 们 两 个 通 第 都 是 健康 的 ， 所 以 对 应 的 状态 拥有 最 高 的 
密切 程度 。 两 个 人 中 只 有 一 个 人 是 生病 的 密切 程度 是 最 低 的 ， 因 为 这 是 
一 个 很 宇 见 的 状态 。 两 个 人 部 生病 的 状态 (通过 一 个 人 来 传染 给 了 为 一 


个 人 ) AA tet HE FEE, KENAA BATS AEBS ES) E FE 


X O 


为 了 完整 地 定义 这 个 模型 ， 我 们 需要 对 包含 h y Ah, WE XR A 
T. 


16.2.3” 配 分 函数 


尺 官 这 个 未 归 一 化 概率 函数 处 处 不 为 稚 ， 我 们 仍然 无 法 保证 它 的 概率 之 
和 或 者 积分 为 1。 为 了 得 到 一 个 有 效 的 概率 分 布 ， 我 们 需要 使 用 对 应 的 
归 一 化 的 概率 分 布 ©. ; 

i 


p(x) = FP(x) (16.4) 


其 中 ，Z 是 使 得 所 有 的 概率 之 和 或 者 积分 为 1 的 常数 ， 并 且 满 足 : 
Z= | jax (16.5) 
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作 是 配 分 函数 ， 这 是 一 个 从 统计 物理 学 中 信和 鉴 的 术语 。 


由 于 Z 通 常 是 由 对 所 有 可 能 的 x 状态 的 联合 分 布 空间 求 和 或 者 求 积 分 得 
到 的 ， 它 通常 是 很 难 计 算 的 。 为 了 获得 一 个 无 回 模 型 的 归 一 化 概率 分 
布 ， 模 型 的 结构 和 函数 g 有 的 定义 通 沿 需要 设计 为 有 助 于 局 效 地 计算 Z。 在 
深度 学 习 中 ，Z 通 常 是 难以 处 理 的 。 由 于 Z 难 以 精确 地 计算 出 ， 我 们 只 
能 使 用 一 些 近 似 的 方法 。 这 样 的 近似 方法 是 第 18 章 的 主要 内 容 。 


在 设计 无 向 模型 时 ， 我 们 必须 牢记 于 心 的 一 个 要 点 是 设 定 一 些 使 得 7 不 
存在 的 因子 也 是 有 可 能 的 。 当 模型 中 的 一 些 变量 是 连续 的 ， 且 万 在 其 定 
义 域 上 的 积分 发 散 时 这 种 情况 就 会 发 生 。 例 如 ， 当 我 们 需要 对 一 个 单独 
的 标量 变量 y C R 建 模 ， 并 且 单 个 团 势能 定义 为 g(x) 二 x 2 时 。 在 
这 种 情况 下 ， 


Z = [eae (16.6) 


由 于 这 个 积分 是 发 散 的 ， 所 以 不 存在 一 个 对 应 看 这 个 势能 函数 q(x) 的 概 
紊 分布 。 有 时 候 q 函 数 菜 些 参数 的 选择 可 以 决定 相应 的 概率 分 布 是 耕 能 
EIRE. MU, oR; B= exp Bx ) 来 说 ， 参 数 B 决 定 了 归 一 化 
第 数 Z 是 售 存 在 。 正 的 B 使 得 图 数 是 一 个 关于 X 的 高 斯 分 布 ， 但 是 非 正 的 
参数 B 则 使 得 gp 不 可 能 被 归 一 化 。 


有 问 建 模 和 无 问 建 模 之 间 一 个 重要 的 区 别 束 是 有 癌 模 型 是 通过 从 起 始点 
的 概 认 分 布 直 接 定 义 的 ， 反 之 无 回 模 型 的 定义 显得 更 加 千 松 ， 通 过 q 杨 
数 转 化 为 概率 分 布 而 定义 。 这 改变 了 我 们 处理 这 些 建 模 问 题 的 直觉 。 当 
我 们 处理 无 同 模型 时 需要 牢记 一 点 ， 每 一 个 变量 的 定义 域 对 于 一 系列 给 
定 的 bg 函数 所 对 应 的 概率 分 布 有 着 重要 的 影响 。 举 个 例子 ， 我 们 考虑 一 
个 n 维 问 量 的 随机 变量 x 以 及 一 个 由 偏 置 同 量 b 参数 化 的 无 问 模型 。 假 
设 x 的 每 一 个 元 素 对 应 着 一 个 团 ， 并 且 满 足 9() (xi) = exp(b;x;) 。 
在 这 种 情况 下 概率 分 布 是 怎样 的 呢 ? 答案 是 我 们 无 法 确定 ， 因 为 我 们 并 
没有 指定 x 的 定义 域 。 如 果 x 满足 EC IR”. 那么 有 关 归 一 化 常数 Z 
的 积分 是 发 散 的 ， 这 导致 了 对 应 的 概率 分 布 是 不 存在 的 。 如 果 

x E {0,1}”， 那 么 p(x ) 可 以 被 分 解 成 n 个 独立 的 分 布 ， 并 且 满 足 p(x 
i =1)=sigmoid(b i yo Wx 的 定义 域 是 基本 单位 同 量 
({{1,0,--- ,O0},{0,1,--- ,O0),--- 的 集合 ， 
那么 P(x) 二 softmax(b )， 因 此 对 于 jz#i， 一 个 较 大 的 b ; 的 值 会 降低 所 有 p(x 
j 二 了) 的 概率 。 通 沼 情 况 下 ， 通 过 仔细 选择 变量 的 定义 域 ， 能 够 从 一 个 
相对 简单 的 9 函数 的 集合 可 以 获得 一 个 相对 复杂 的 表达 。 我 们 会 在 第 
20.6 节 中 讨论 这 个 想法 的 实际 应 用 。 


16.2.4 ”其 于 能 量 的 模型 

无 回 模型 中 许多 有 趣 的 理论 结果 都 依赖 于 VY x ， p(x) > QO 这 个 假 
设 。 使 这 个 条 件 满 足 的 一 种 简单 方式 是 使 用 基于 能 量 的 模型 (Energy- 
based model, EBM) ， 其 中 


p(x) = exp(—E(x)) (16.7) 


E(x MERNE BE eA A (energy function) 。 对 所 有 的 z，exp(z) 都 是 正 
的 ， 这 保证 了 没有 一 个 能 量 函 数 会 使 得 某 一 个 状态 x ENO. RAI 
可 以 完全 目 由 地 选择 那些 能 够 人 简化 学 习 过 程 的 能 量 函 数 。 如 果 我 们 直接 
学 习 各 个 团 势能 ， 我 们 需要 利用 约束 优化 方法 来 任意 地 指定 一 些 特 定 的 
最 小 概率 值 。 学 习 能 量 函 数 的 过 程 中 ， 我 们 可 以 采用 无 约束 的 优化 方法 
路 。 基 于 能 量 的 模型 中 的 概率 可 以 无 限 趋 近 于 0 但 是 永远 达 不 到 0。 


服从 式 (16. 形式 的 任意 分 布 都 是 玻 尔 效 曼 分 布 (Boltzmann 
distribution) 的 一 个 实例 。 正 是 基于 这 个 原因 ， 我 们 把 许 多 基于 能 量 的 
BAY BRA BR ZK = AL (Boltzmann Machine) (Fahlman et al. , 1983; 
Ackley et al. , 1985; Hinton et al. , 1984a; Hinton and Sejnowski, 
1986) 。 关 于 什么 时 候 称 之 为 基于 能 量 的 梗 型， 什么 时 候 称 之 为 玻 尔 歼 
曼 机 不 存在 一 个 公认 的 判别 标准 。 一 开始 玻 尔 效 曼 机 这 个 术语 是 用 来 摘 
述 一 个 只 有 二 值 变 量 的 模型 ， 但 是 如 今 许 多 模型 ， 比 如 均值 - 协 方 弄 
RBM， 也 涉及 实 值 变 量 。 昌 然 玻 尔 北 曼 机 最 初 的 定义 既 可 以 包含 湾 变 
量 ， 也 可 以 不 包含 潜 变 量 ， 但 是 时 人 至 今日 玻 尔 效 曼 机 这 个 术语 通常 用 于 
指 拥有 淤 变 量 的 异型 ， 而 没有 游 变量 的 玻 尔 效 受 机 则 经 名 被 称 为 马尔 可 
夫 随 机 场 或 对 数 线 性 模型 。 


无 回 模 型 中 的 团 对 应 于 未 归 一 化 概 鞭 函数 中 的 因 了 于 。 通 过 exp(a 十 b) 王 
exp(a)exp(b)， 我 们 友 现 无 同 模 型 中 的 不 同 团 对 应 于 能 量子 数 的 不 同 项 。 
换 句 话说 ， 基 于 能 量 的 模型 只 是 一 种 特殊 的 马尔 可 夫 网 络 : 求 早 使 能 量 
六 数 中 的 每 个 项 对 应 于 不 同 团 的 一 个 因子 。 天 于 如 何 从 无 回 模 型 结构 中 
医 得 能 量 函 数 形式 的 示例 可 以 参考 图 16.5。 人 们 可 以 将 能 量 函 数 中 市 三 
多 个 项 的 基于 能 量 的 模型 视 作 古 专 家 之 积 (product of expert) 
(Hinton, 1999) . eŒ K ZTE AYE DO DY AY ee 8 OD EY A 
子 。 能 量 函 数 中 的 每 一 项 都 可 以 看 作 雇 定 一 个 特定 的 软 约束 是 个 能 够 满 
下 的 “专家 ”。 每 个 专家 只 执行 一 个 约束 ， 而 这 个 约束 仅仅 涉及 随机 变量 
的 一 个 低 维 投影 ， 但 是 当 其 结合 概率 的 乘法 时 ， 专 家 们 一 同 构 造 了 复杂 
的 高 维 约束 。 


图 16.5 ”这 个 图 说 明 退 过 为 每 个 团 选择 适当 的 能 量 函 数 E(a,b,c,d,e,f) 可 以 写作 E a, b (ab) +E 


bc (b,O 十 E a d (a,d) 十 Ep.e (be) +E ef (e,f)。 值 得 注意 的 是 ， 我 们 令 g 等 于 对 应 负 能 量 的 指数 ， 
可 以 获得 图 16.4 中 的 函数 ， 比 如 ，9 ab (ab) 一 exp(-E(aD)) 


基于 能 量 的 模型 定义 的 一 部 分 无 法 用 机 和 需 学 习 观 点 来 解释 : 即 式 

(16.7) 中 的 “-” 生 号 。 这 个 “-” 和 从 和 写 可 以 被 包含 在 E 的 定义 之 中 。 对 于 很 
SERA ICE Ri, FARAN WA BRR Ss. KS 
WN ARTE EE REA S TREE AL AR St OD SCHAAR ZB RTE. ME 
FEA AE FU A) A E a TP BS ae A, FEF PEE FRSC HY. 
FM as nese, KAT Ss. aula se” MI“ AC BORA TE 
BR AS TK ETS RARER, SET A cS EH EE PS. HEL 
器 学 习 研 究 者 〈 例 如 ，Smolensky (1986) 将 负 能 量 称 为 harmony ) 发 
出 了 不 同 的 声音 ， 但 这 些 都 不 是 标准 惯例 。 


许多 对 概率 模型 进行 操作 的 算法 个 需要 计算 p model (X )， 而 只 需要 计算 
log Pmodel(H) > HTFRA WEE h 的 基于 能 量 的 模型 ， 这 些 算法 有 
时 会 将 该 量 的 负数 称 为 目 由 能 (free energy) : 


F(a) = —log > ,exp(—E(z,h)) (16.8) 
h 


在 本 书 中 ， 我 们 更 倾向 于 更 为 通用 的 基于 ]og Pmodel l£) 的 定义 。 


16.25 分离 和 d- 分 离 


图 模型 中 的 边 守 诉 我 们 哪些 变量 卫 接 相互 作用 。 我 们 经 党 需要 知 巡 哪些 
变量 间接 相互 作用 。 示 些 间 接 相 互 作 用 可 以 通过 观察 其 他 变量 来 所 用 或 
茶 用 。 更 正式 地 ， 我 们 力 知 逢 在 给 定 其 他 变量 于 集 的 值 时 ， 哪 些 变量 于 
集 彼 此 条 件 独 立 。 


在 无 同 模 型 中 ， 识 别 图 中 的 条 件 独 立 性 是 非常 简单 的 。 在 这 种 情况 下 ， 
图 中 隐 含 的 条 件 独立 性 称 为 分 离 (separation〉。 如 果 图 结构 显示 给 定 
TEES 的 情况 下 变量 集 A EAR ESR 无 关 ， 那 么 我 们 声称 给 定 变 
BRS 时 ， 变 量 集 A 与 男 一 组 变量 集 | 网 是 分 离 的 。 如 果 连 接 两 个 变 
量 a 和 b 的 连接 路 径 仅 涉 及 未 观察 变量 ， 那 么 这 些 变量 不 是 分 离 的 。 如 果 
它们 之 间 没 有 路 径 ， 或 者 所 有 路 径 都 包含 可 观测 的 变量 ， 那 么 它们 是 分 
离 的 。 我 们 认为 仅 涉 及 未 观察 到 的 变量 的 路 径 是 “活跃 ?> 的， 而 包括 可 观 
察 变量 的 路 径 称 为 “ 非 活跃 ”的 。 


当 我 们 画图 时 ， 我 们 可 以 通过 加 阴影 来 表示 观察 到 的 变量 。 图 16.6 用 于 
朱 述 当 以 这 种 方式 绘图 时 无 癌 模 型 中 的 活跃 和 非 活跃 路 径 的 样子 。 图 
16.7 搞 述 了 一 个 从 无 同和 模型 中 恋 取 分 离 信息 的 例子 。 


(a) (b) 


图 16.6 (a) 随机 变量 a 和 随机 变量 b 之 间 罕 过 s 的 路 径 是 活跃 的 ， 因 为 s 是 观察 不 到 的 。 这 意味 
看 a 和 b 之 间 不 是 分 离 的 。 \b) 图 中 s 用 阴影 填 序 ， 表 示 它 是 可 观 宗 的 。 因 为 a 和 b 之 间 的 唯一 路 
径 通过 s， 并 且 这 条 路 径 是 不 活跃 的 ， 我 们 可 以 得 出 结论 ， 在 给 定 s 的 条 件 下 a 和 b 是 分 离 的 









图 16.7 M—-SARIA FERDA ERNAS. DAA, Kar EEM. E 
FTbš E S MaFilcHME E, RIER Eb E Paic. MRE EENE T 
从 a 到 d 的 一 条 路 人 笃 ， 但 是 它们 之 间 有 为 一 条 活跃 路 人 笃 。 因 此 给 定 b 的 情况 Fa 和 d 不 是 分 离 的 


类 似 的 概念 适用 于 有 问 模 型 ， 只 是 在 有 问 模 型 中 ， 这 些 概念 修 称 为 d- 分 
A  (d-separation) 。“d” 人 代表“ 依赖 * 的 意思 。 有 问 图 中 d- 分 离 的 定义 与 
无 向 模型 中 分 离 的 定义 相同 : 如 果 图 结构 显示 给 定 变 量 集 S 时 ， 变 量 
集 人 SZERB 无 关 ， 那 么 我 们 认为 给 定 变量 集 S 时 ， 变 量 集 Å d- 
DATERER . 





与 无 癌 模 型 一 样 ， 我 们 可 以 通过 查看 图 中 存在 的 活跃 路 径 来 检查 图 中 隐 
舍 的 独立 性 。 如 前 所 述 ， 如 果 两 个 变量 之 间 存 在 活跃 路 径 ， 则 两 个 变量 
是 依赖 的 。 如 果 没 有 活跃 路 径 ， 则 为 d- 分 离 。 在 有 回 网 络 中 ， 确 定 路 径 
是 否 活跃 有 点 复杂 。 关 于 在 有 癌 模 型 中 识别 活跃 路 径 的 方法 可 以 参考 图 
16.8。 图 16.9 是 从 一 个 图 中 读 取 一 些 属性 的 例子 。 


尤其 重要 的 是 ， 要 记 住 分 离 和 d- 分 离 只 能 告诉 我 们 赂 中 隐 仿 的 条 件 独 立 
性 。 图 并 不 需要 表示 所 有 存在 的 独立 性 。 进 一 步 的 ， 使 用 完全 图 (具有 
所 有 可 能 的 边 的 图 ) 来 表示 任何 分 布 忌 是 合法 的 。 事 实 上 ， 一 些 分 布 包 
含 不 可 能 用 现 有 图 形 符号 表示 的 独立 性 。 特 定 环 境 下 的 独 六 (context- 
specific independences) 指 的 是 取决 于 网 络 中 一 些 变 量 值 的 独立 性 。 例 
如 ， 考 虑 3 个 二 值 变量 的 模型 a、b 和 c。 假 设 当 a 是 0 时 ，b 和 c 是 独立 


的 ， 但 是 当 a 是 1 时 ，b 确 定 地 等 于 c。 当 a 二 1 时 ， 图 模型 需要 连接 b 和 和 c 的 
边 。 但 是 图 不 能 说 明 当 a 二 0 时 ，b 和 c 个 是 独立 的 。 


一 般 来 六 ， 当 独立 性 不 存在 时 ， 图 不 会 亚 示 独立 性 。 然 而 ， 图 可 能 无 法 
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图 16.8 ”两 个 随机 变量 a 和 b 之 间 存 在 长 度 为 2 的 所 有 种 类 的 活跃 路 径 。 (a) AD Ie] Ma fis bH] 
任何 路 径 ， 反 过 来 也 一 样 。 如 果 s 可 以 被 观察 到 ， 这 种 路 径 束 是 阻 杜 鸭 。 在 接力 赛 的 例子 中 ， 我 
们 已 经 看 到 过 这 种 类 型 的 路 径 。 b) 变量 a 和 b 通 过 共 因 s 相 连 。 举 个 例子 ， 假 设 s 是 一 个 表示 是 
售 存 在 朵 风 的 变量 ，a 和 b 表 示 了 两 个 相 邻 气象 监控 区 域 的 风速 。 如 果 我 们 在 a 处 观 穴 到 很 高 的 风 
速 ， 我 们 可 以 期 望 在 b 处 也 观察 到 高 速 的 内 。 如 果 观 察 到 $S， 那 么 这 条 路 径 束 被 阻塞 了 。 如 果 我 
们 已 经 知道 存在 邮 风 ， 那 么 无 论 a 处 观察 到 什么 ， 我 们 都 能 期 望 b 处 有 较 高 的 风速 。 在 a 处 观察 到 
一 个 低 于 预期 的 风速 《〈 对 风 风 而 言 ) 并 不 会 改变 我 们 对 b 处 风速 的 期 望 〈《 已 知 有 风 风 的 情况 

P) 。 然 而 ， 如 果 s 不 被 观测 到 ， 那 么 a 和 b 是 依赖 的 ， 即 路 径 是 活跃 的 。(c) 变量 a 和 b 都 是 s 的 
父 节 点 。 这 称 为 V- 结 构 (V-structure) 或 者 人 磁 撞 情况 (the collider case) . #848 相 消 解释 作 奈 
(explaining away effect) ，V- 结 构 导 致 和 和 b 是 相关 的 。 在 这 种 情况 下 ， 当 s 被 观测 到 时 ， 路 径 是 
活跃 的 。 举 个 例子 ， 假 设 s 是 一 个 表示 你 的 同事 不 在 工作 的 变量 。 变 量 a 表 示 她 生病 了 ， 而 变量 b 
表示 她 在 休假 。 如 果 你 观察 到 了 她 不 在 工作 ， 你 可 以 假设 她 很 有 可 能 是 生病 了 或 者 是 在 度假 ， 
但 是 这 两 件 事 同 时 发 生 是 不 太 可 能 的 。 如 果 你 发 现 她 在 休假 ， 那 么 这 个 事实 足够 解释 她 的 缺席 
了 。 你 可 以 推 亲 她 很 可 能 没有 生病 。 (Cd) 即使 s 的 任意 后 代 都 被 观察 到 ， 相 消解 释 作 用 也 会 起 
作用 。 举 个 例子 ， 假 设 c 是 一 个 表示 你 是 否 收 到 你 同事 的 报告 的 一 个 变量 。 如 果 你 注意 到 你 还 没 
有 收 到 这 个 报告 ， 这 会 增加 你 估计 的 她 今天 不 在 工作 的 概率 ， 这 反 过 来 又 会 增加 她 今天 生病 或 
者 度假 的 概率 。 阻 塞 V- 结 构 中 路 径 的 唯一 方法 束 是 共享 子 节 点 的 后 代 一 个 都 观察 不 到 









































图 16.9 ”从 这 张 图 中 ， 我 们 可 以 发 现 一 些 d- 分 离 的 性 质 。 它 包括 了 以 下 几 点 
。 给 定 衬 集 的 情况 下 ，a 和 b 是 d- 分 离 的 。 
e 给 定 c 的 情况 下 ，a 和 ee 是 d- 分 离 的 。 
。 给 定 c 的 情况 下 ，d 和 e 是 d- 分 离 的 。 
我 们 还 可 以 发 现 当 我 们 观察 到 一 些 变量 时 ， 一 些 变量 不 再 是 4 分离 的 。 
。 给 定 c 的 情况 下 ，a 和 Pb 不 是 d- 分 离 的 。 
。 给 定 d 的 情况 下 ，a 和 Pb 不 是 d- 分 离 的 


16.2.6 ”在 有 问 模 型 和 无 癌 模 型 中 转换 


我 们 经 党 将 特定 的 机 可 学 习 模 型 称 为 无 同 模型 或 有 同 模 型 。 例 如 ， 我 们 
通 钊 将 受 限 玻 尔 北 受 机 称 为 无 同 模型 ， 而 稀 距 编码 则 被 称 为 有 同 模 型 。 
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无 问 模 型 描述 。 


有 回 模 型 和 无 问 模 型 都 有 其 优点 和 缺点 。 这 两 种 方法 都 不 是 明显 优越 和 
普通 优选 的 。 相 反 ， 我 们 根据 具体 的 每 个 任务 来 决定 使 用 哪 一 种 模型 。 
这 个 选择 部 分 取决 于 我 们 希望 措 述 的 概率 分 布 。 根 据 哪 种 方法 可 以 最 大 
程度 地 捕捉 到 概 座 分 布 中 的 独立 性 ， 或 者 哪 种 方法 使 用 最 少 的 边 来 插 述 
分 布 ， 我 们 可 以 决定 使 用 有 问 建 模 还 是 无 回 建 模 。 人 还 有 其 他 因 系 可 以 影 
呵 我 们 决定 使 用 哪 种 建 模 方 式 。 即 使 在 使 用 单个 概率 分 布 时 ， 我 们 有 时 
也 可 以 在 不 同 的 建 模 方 式 之 间 切 换 。 有 时， 如 果 我 们 观察 到 变量 的 某 个 
子 集 ， 或 者 如 末 我 们 布 于 执行 不 同 的 计算 任务 ， 换 一 种 建 醒 方式 可 能 
合适 。 例 如 ， 有 有 问 模 型 通常 提供 了 一 种 局 效 地 从 檬 型 中 抽取 样本 在 第 
16.30 PHR) 的 耳 接 方法 。 而 无 回 模 型 形式 人 退 弟 对 于 推导 近似 推 师 过 
程 〈 我 们 将 在 第 19 章 中 看 到 ， 式 〈19.56) 强调 了 无 癌 模 型 的 作用 ) 是 
很 有 用 的 。 


每 个 概率 分 布 可 以 由 有 辣 模 型 或 由 无 同 模 型 表示 。 在 最 坏 的 情况 下 ， 我 
们 可 以 使 用 “完全 图 ”来 表示 任何 分 布 。 在 有 问 模 型 的 情况 下 ， 完 全 图 是 
任意 有 问 无 环 图 ， 其 中 我 们 对 随机 变量 排序 ， 并 日 每 个 变量 在 排序 中 位 
于 其 之 前 的 所 有 其 他 变量 作为 其 图 中 的 祖先 。 对 于 无 同 模 型 ， 完 全 图 只 
是 包含 所 有 变量 的 单个 团 。 图 16.10 给 出 了 一 个 实例 。 


图 16.10 ”完全 图 的 例子 ， 完 全 图 能 够 插 述 任何 的 概 京 分布。 这 里 我 们 展示 了 一 个 市 有 4 个 随机 
变量 的 例子 。 左 ) CECA. ECAR, See Ree. Ch) 一 个 完全 有 问 图 。 在 
有 问 图 中 ， 并 不 存在 唯一 的 完全 图 。 我 们 选择 一 种 变量 的 排序 ， 然 后 对 每 一 个 变量 ， 从 它 本 喘 
开始 ， 问 每 一 个 指 癌 顺 序 在 其 后 面 的 变量 男 一 条 弧 。 因 此 存在 着 关于 变量 数 阶 乘 数 量 级 的 不 同 
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完全 图 并 不 是 很 有 用 ， 因 为 它 并 不 隐 售 任何 独立 性 。 


当 我 们 用 图 表示 概 座 分 布 时 ， 我 们 想 要 选择 一 个 包含 尽 可 能 多 独立 性 的 
图 ， 但 是 并 不 会 假设 任何 实际 上 不 存在 的 独立 性 。 


从 这 个 角度 来 看 ， 一 些 分 布 可 以 使 用 有 问 模 型 更 局 效 地 表示 ， 而 其 他 分 
布 可 以 使 用 无 回 模型 更 高 效 地 表示 。 换 人 句 话 说 ， 有 问 模 型 可 以 编码 一 些 
无 回 模型 所 不 能 编 公 的 独立 性 ， 有 反之 杰 然 。 


有 问 模 型 能 够 使 用 一 种 无 同 模 型 无 法 完美 表示 的 特定 类 型 的 子 结构 。 这 
个 子 结构 被 称 为 不 道德 〈immorality) 。 这 种 结构 出 现在 当 两 个 随机 变 
量 a 和 b 都 是 第 三 个 随机 变量 c 的 父 结 点 ， 并 且 不 存在 任 一 方 同上 直接 连 

接 a 和 b 的 边 时 。 (“不 道德 ”的 名 字 可 能 看 起 来 很 奇怪 ， 它 在 图 模型 文献 
中 的 使 用 源 于 一 个 天 于 未 婚 父 母 的 笑话 。) 为 了 将 有 向 模型 图 也) 转换 
为 无 回 模 型 ， 我 们 需要 创建 一 个 新 图 [4 。 对 于 每 对 变量 x 和 y， 如 果 存 
TERT) 中 的 X 和 y 的 有 辐 边 〈 在 任 一 方 同 上 ) , BR a Rx Aly abe A 
D Hy PA ZIT A, 则 在 {4 中 添加 连接 x 和 y 的 无 回 边 。 得 到 
的 KU 被 称 为 是 道德 图 Cmoralized graph) 。 关 于 一 个 通过 道德 化 将 
有 问 图 模型 转化 为 无 同 模型 的 例子 可 以 参考 图 16.11。 








图 16.11 通过 构造 道德 图 将 有 问 模 型 (上 一 行 ) 转 化 为 无 疝 模型 (下 一 行 ) 的 例子 。 (AD 只 
需要 把 有 问 边 丛 换 成 无 问 边 承 可 以 把 这 个 简单 的 链 转 化 为 一 个 道德 图 。 得 到 的 无 癌 模 型 包含 了 
完全 相同 的 独立 关系 和 条 件 独 立 天 系 。《 中 ) 是 在 不 丢失 独立 性 的 情况 下 无 法 转化 为 无 癌 模 型 
的 最 简单 的 有 问 模 型 。 这 个 图 包含 了 单个 完整 的 不 妃 德 结构 。 因 为 a 和 b 都 是 c 的 父 币 后 ， 当 c 被 
观察 到 时 ， 它 们 之 间 通 过 活路 路径 相 连 。 为 了 捕捉 这 个 依赖 ， 无 问 模 型 必须 包含 一 个 舍 有 所 有 
三 个 变量 的 团 。 这 个 团 无 法 编码 a 上 Lb 这 个 信息 。〔 右 ) 一 般 来 说 ， 道 德 化 的 过 程 会 给 图 添加 许 
多 边 ， 因 此 丢失 了 一 些 隐 侣 的 独立 性 。 举 个 例子 ， 这 个 黎 葡 编码 图 需要 在 每 一 对 隐 纠 单元 之 间 
添加 着 德 化 的 边 ， 因 此 也 引入 了 二 次 数量 级 的 新 的 直接 依赖 


同样 地 ， 无 向 模型 可 以 包括 有 向 模型 不 能 完美 表示 的 子 结构 。 具 体 来 

说 ， 如 果 Lf 包含 长 度 大 于 3 的 环 doop), WEHRT) 不 能 捕获 无 向 
RAU 所 包含 的 所 有 条 件 独立 性 ， 除 非 该 环 还 包含 弦 (chord) 。 环 指 
的 是 由 无 向 边 连接 的 变量 序列 ， 并 且 满 足 序 列 中 的 最 后 一 个 变量 连接 回 
序列 中 的 第 一 个 变量 。 弦 是 定义 环 序列 中 任意 两 个 非 连续 变量 之 间 的 连 
接 。 如 果 Lf 具有 长 度 为 4 或 更 大 的 环 ， 并 且 这些 环 没有 弦 ， 我 们 必须 在 
将 它们 转换 为 有 向 模型 之 前 添加 弦 。 添 加 这 些 弦 会 丢弃 在 [中 编码 的 
一 些 独 立信 息 。 通 过 将 弦 添加 到 Lf 形成 的 图 被 称 为 弦 图  Cchordal 








graph) 或 者 三 角形 化 图 Ctriangulated graph) ， 因 为 我 们 现在 可 以 用 更 
小 的 、 三 角 的 环 来 描述 所 有 的 环 。 要 从 弦 图 构建 有 向 图 ) ， 我 们 还 需 
要 为 边 指定 方 同 。 当 这 样 做 时 ， 我 们 不 能 在 人 中 创建 有 向 循环 ， 否 则 
将 无 法 定义 有 效 的 有 问 概 座 模 型 。 AD 中 的 边 分 配方 同 的 一 种 方法 古 
对 随机 变量 排序 ， 然 后 将 每 个 边 从 排序 较 早 的 布点 指 同 排序 入 后 的 节 
扩 。 一 个 简单 的 实例 可 以 参考 图 16.12， 


图 16.12 ”将 一 个 无 向 模型 转化 为 一 个 有 向 模型 。( 左 ) 这 个 无 向 模型 无 法 转化 为 有 向 模型 ， 因 
为 它 有 一 个 长 度 为 4 且 不 带 有 弱 的 环 。 有 具体 说 来 ， 这 个 无 同 模型 包含 了 两 种 不 同 的 独立 性 ， 并 且 
不 存在 一 个 有 向 模型 可 以 同时 描述 这 两 种 性 质 : aLc | {b,d}#lbLd| {ac}. (中 ) 为 了 将 无 向 
图 转化 为 有 回 图 ， 我 们 必须 通过 保证 所 有 长 度 大 于 3 的 环 都 有 弱 来 三 角形 化 图 。 为 了 实现 这 个 目 
标 ， 我 们 可 以 加 一 条 连接 a 和 和 c 或 者 连接 b 和 d 的 边 。 在 这 个 例子 中 ， 我 们 选择 添加 一 条 连接 a 和 Cc 
Wid. CE) 为 了 完成 转化 的 过 程 ， 我 们 必须 给 每 条 边 分 配 一 个 方向 。 执 行 这 个 任务 时 ， 我 们 


必须 保证 不 产生 任何 有 问 环 。 避 人 免 出 现 有 问 坏 的 一 种 方法 是 赋予 节 扣 一 定 的 顺序 ， 然 后 将 每 个 
边 从 排序 较 早 的 节点 指 癌 排序 稍 后 的 节点 。 在 这 个 例子 中 ， 我 们 根据 变量 名 的 字母 进行 排序 


16.2.7 因子 图 


因子 图 (factor graph)〉 是 从 无 回 模 型 中 抽样 的 男 一 种 方法 ， 它 可 以 解决 
标准 无 回 模型 语法 中 图表 达 的 模糊 性 。 在 无 同 模 型 中 ， 每 个 gp 函数 的 艺 
用 必须 是 图 中 菏 个 团 的 子 集 。 我 们 无 法 确定 每 一 个 团 是 否 含有 一 个 作用 
域 包含 整个 团 的 因子 比如 说 一 个 包含 3 个 结 点 的 团 可 能 对 应 的 是 一 
个 有 3 个 结 点 的 因子 ， 也 可 能 对 应 的 是 3 个 因子 并 且 每 个 因子 包含 了 一 对 
结 点 ， 这 通常 会 导 任 模糊 性 。 通 过 显 式 地 表示 每 一 个 q 函 数 的 作用 域 ， 

因 了 于 图 解决 了 这 种 模糊 性 。 其 体 来 说 ， 因 了 图 是 一 个 包含 无 同 二 分 图 的 
无 问 模 型 的 图 形 化 表示 。 一 些 下 点 航 绘 制 为 圆 形 。 束 像 在 标准 无 同 模 型 
中 一 样 ， 这 些 节点 对 应 于 随机 变量 。 其 余 节 点 绘制 为 方块 。 这 些 节点 对 
应 于 未 归 一 化 概率 函数 的 因子 6p。 变 量 和 因子 可 以 通过 无 同 边 连接 。 当 
日 仅 当 变量 包含 在 未 归 一 化 概率 函数 的 因子 中 时 ， 变 量 和 因子 在 图 中 存 
在 连接 。 没 有 因子 可 以 连接 到 图 中 的 另 一 个 因子 ， 也 不 能 将 变量 连接 到 














变量 。 图 16.13 给 出 了 一 个 例子 来 说 明 因子 图 如 何 解 决 无 回 网 络 中 的 模 
糊 性 。 





图 16.13 ”因子 图 如 何 解 决 无 同 网 络 中 模糊 性 的 一 个 例子 。【〔 左 ) 一 个 包含 3 个 变量 (a、b 和 Cc) 
的 团 组 成 的 无 向 网 络 。 CF) 对 应 这 个 无 向 模型 的 因子 图 。 这 个 因子 图 有 一 个 包含 3 个 变量 的 因 
Fo CA) 对 应 这 个 无 回 模 型 的 男 一 种 有 效 的 因子 图 。 这 个 因子 图 包含 了 3 个 因子 ， 每 个 因子 只 
对 应 两 个 变量 。 即 使 它们 表示 的 是 同一 个 无 癌 模 型 ， 这 个 因子 图 上 进行 的 表示 、 推 新 和 学 习 相 
比 于 中 图 摘 述 的 因子 图 都 要 渐 近 地 廉价 


16.3 ”从 图 模型 中 采样 
图 模型 同样 简化 了 从 模型 中 采样 的 过 程 。 
有 向 图 模型 的 一 个 优点 是 ， 可 以 通过 一 个 简单 高 效 的 过 程 从 模型 所 表示 


的 联合 分 布 中 产生 样本 ， 这 个 过 程 被 称 为 原始 采样 (ancestral 
sampling) 。 
原始 采样 的 基本 思想 是 将 图 中 的 变量 x ; 使 用 拓扑 排序 ， 使 得 对 于 所 有 i 


和 j， 如 果 xi 是 xj 的 一 个 父亲 结 点 ， 则 j 大 于 i。 然 后 可 以 按 此 顺序 对 变量 
进行 采样 。 换 句 话 说， 我 们 可 以 首先 采 x ” | Pe yy AER 


x9 ~ P(o | Pag( X2)) ， 以 此 类 推 ， 直 到 最 后 我 们 从 
Px, | Pasii 中 采样 。 只 要 不 难 从 每 个 条 件 分 布 


Xr ru P | Pag(x;)) 中 采样 ， 那 么 从 整个 模型 中 采样 也 是 容易 

的 。 拓 扑 排序 操作 保证 我 们 可 以 按照 式 〈16. 1) 中 条 件 分 布 的 顺序 依次 
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进行 抽样 。 


有 些 图 可 能 存在 多 个 拓扑 排序 。 原 始 采 样 可 以 使 用 这 些 拓扑 排序 中 的 任 
何 一 个 。 
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采样 时 ， 给 定 一 些 其 他 变量 ， 我 们 经 常 要 求 所 有 给 定 的 条 件 变 量 在 顺序 
图 中 比 要 采样 的 变量 的 顺序 要 早 。 在 这 种 情况 下 ， 我 们 可 以 从 模型 分 布 
指定 的 局 部 条 件 概 率 分 布 中 采样 。 否 则 ， 我 们 需要 采样 的 条 件 分 布 是 给 
定 观 测 变 量 的 后 验 分 布 。 这 些 后 验 分 布 在 模型 中 通 利 没有 明确 指定 和 参 
数 化 。 推 新 这 些 后 验 分 布 的 代价 可 能 是 很 高 的 。 在 这 种 情况 下 的 模型 
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问题 (要 确定 新 有 问 图 的 根 节点 上 的 边缘 分 布 ) ， 或 者 需要 引入 许多 

边 ， 从 而 会 使 得 到 的 有 回 模 型 变 得 难以 处 理 。 从 无 癌 模 型 采样 ， 而 不 首 
先 将 其 转换 为 有 问 模 型 的 做 法 似乎 需要 解决 循环 依赖 的 问题 。 每 个 变量 
与 每 个 其 他 变量 相互 作用 ， 因 此 对 于 采样 过 程 没 有 明确 的 起 点 。 不 对 的 
征 ， 从 无 癌 模 型 中 抽取 样本 是 一 个 成 本 很 高 的 多 次 色 代 的 过 程 。 理 论 上 
最 简单 的 方法 是 Gibbs 采 样 (Gibbs Sampling) 。 假 设 我 们 在 一 个 n 维 向 
量 的 随机 变量 x 上 有 一 个 图 模型 。 我 们 迭代 地 访问 每 个 变量 xi; ， 在 给 定 
其 他 变量 的 条 件 下 从 p(x ; | x _, ) 中 抽样 。 由 于 图 模型 的 分 离 性 质 ， 抽 取 
xi 时 我 们 可 以 等 价 地 仅 对 xi 的 邻 后 条 件 化 。 不 生 的 是 ， 在 我 们 过 有 历 疼 模 
型 一 次 并 采样 所 有 n 个 变量 之 后 ， 我 们 仍然 无 法 得 到 一 个 来 和 目 p(GX_ ) 的 客 
观 样本 。 相 反 ， 我 们 必须 重复 该 过 程 并 使 用 它们 邻居 的 更 新 值 对 所 有 n 
个 变量 重新 采样 。 在 多 次 重复 之 后 ， 该 过 程 渐 近 地 收敛 到 正确 的 目标 分 
布 。 我 们 很 难 确 定 样 本 何 时 达到 所 期 望 分 布 的 足够 精确 的 近似 。 无 同 模 
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情况 则 较为 复杂 。 选 择 不 对 东 些 变量 的 相互 作用 进行 建 模 是 允许 所 有 这 
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来 传达 信息 。 在 没有 边 的 情况 下 ， 模 型 假设 不 对 变量 之 间 下 接 的 相互 作 
用 建 模 。 


结构 化 概率 柑 型 允许 我 们 明确 地 将 给 定 的 现 有 知识 与 知识 的 学 习 或 者 推 
潜 分 开 ， 这 是 一 个 不 容易 量化 的 益 处 。 这 使 我 们 的 柑 型 更 容易 开 友 和 调 
试 。 我 们 可 以 设计 、 分 析 和 评估 适用 于 更 广汽 围 的 图 的 学 习 算法 和 推断 
算法 。 同 时 ， 我 们 可 以 设计 能 够 捕捉 到 我 们 认为 数据 中 存在 的 重要 关系 
的 重型 。 然 后， 我 们 可 以 组 合 这 些 不 同 的 算法 和 结构 ， 并 获得 不 同 可 能 
性 的 华 卡 儿 乘 积 。 然 而 ， 为 每 种 可 能 的 情况 设计 病 到 妆 的 算法 会 更 加 轩 
难 。 


16.5 ”学 习 依 赖 天 系 


民 好 的 生成 模型 需要 准确 地 捕获 所 观察 到 的 或 “可 见 ” 变 量 v 上 的 分 布 。 
HE sv 的 不 同 元 素 彼 此 噩 度 依 赖 。 在 深度 和 学 习 中 ， 最 妾 用 于 建 模 这 些 依 
赖 天 系 的 方法 是 引入 几 个 浴 在 或 “隐藏 * 变 量 h 。 然 后 ， 该 模型 可 以 捕获 
任何 对 《变量 vi 和 v ;间接 依赖 可 以 通过 v ; 和 h 之 同和 卫 接 依赖 ，v 和 hi E 
接 依 赖 捕获 ) 之 则 的 依赖 天 系 。 


如 果 一 个 民 好 的 天 于 v 的 模型 不 包含 任何 潜 变 量 ， 那 么 它 在 贝 叶 斯 网 络 
中 的 每 个 市 点 需要 上 其 有 大 量 父 市 后 或 在 马尔 可 夫 网 络 中 具有 非 第 大 的 
团 。 仪 仅 表 示 这 些 融 阶 相互 作用 的 成 本 就 很 咒 了 ， 肯 先 从 计算 角 拔 考 
谍 ， 和 存储 在 存储 占 中 的 参数 数量 古 团 中 成 员 数 量 的 指数 级 别 ， 接 看 在 统 
计 和 学 是 义 上 ， 因 为 这 些 指数 数量 的 参数 需要 大 量 的 数据 来 准确 佑 计 。 


当 模 型 旧 在 朱 述 御 接 连接 的 可 见 变 量 之 间 的 依赖 关系 时 ， 通 第 不 可 能 连 
接 所 有 变量 ， 因 此 设计 图 模型 时 需要 连接 那些 紧密 相关 的 变量 ， 并 名 略 
其 他 变量 之 间 的 作用 。 机 套 学 习 中 有 一 个 称 为 结构 学 习 (structure 
learning) 的 领域 专门 讨论 这 个 问题 。Koller and Friedman (2009) 是 一 
个 不 错 的 结构 学 习 参 考 资 料 。 大 多 数 结 构 学 习 技 术 基 于 一 种 贫 柳 搜索 的 
形式 。 它 们 提出 了 一 种 结构 ， 对 其 有 该 结构 的 模型 进行 训练 ， 然 后 给 出 
分 数 。 访 分数 奖励 训练 集 上 的 局 精度 并 对 模型 的 复杂 上 度 进 行 惩 天 。 人 然后 
提出 湛 加 或 移 除 少量 边 的 低 选 结构 作为 搜索 的 下 一 步 。 搜 索 问 一 个 预计 
会 增加 分 数 的 新 络 构 及 展 。 


便 用 洲 变 量 而 不 是 目 适 应 结构 避免 了 离散 搜索 和 多 轮训 练 的 需要 。 可 见 
变量 和 海 变 量 之 间 的 固定 结构 可 以 使 用 可 见 单 元 和 隐藏 单元 之 间 的 二 接 
作用 ， 从 而 建 模 可 见 单 元 乙 则 的 同 接 作 用 。 使 用 价 单 的 参数 学 习 拉 术 ， 
我 们 可 以 学 习 到 一 个 具有 固定 结构 的 模型 ， 这 个 模型 在 边缘 分 布 p(v ) 上 
拥有 正确 的 结构 。 


ETER I REREH, BRER madep, v ) 以 外 ， 还 具有 另外 
的 优势 。 狐 变量 h 还 提供 了 v 的 蕉 代表 示 。 例 如 ， 如 第 3.9.6 节 所 示 ， 局 
斯 混合 模型 学 习 了 一 个 潜 变 量 ， 这 个 潜 变 量 对 应 于 输入 样本 是 从 哪 一 个 
混合 体 中 抽出 。 这 意味 看 珊 斯 混合 模型 中 的 潜 变 量 可 以 用 于 做 分 类 。 我 
们 可 以 看 到 第 14 章 中 简单 的 概 训 檬 型 如 稀疏 编码 ， 是 如 何 学 习 可 以 用 作 
分 类 器 输入 特征 或 者 作为 流 形 上 坐标 的 潜 变 量 的 。 其 他 模型 也 可 以 使 用 
相同 的 方式 ， 但 是 更 深 的 檬 型 和 其 有 多 种 相互 作用 方式 的 模型 可 以 获得 
更 丰 军 的 输入 摘 述 。 许 多 方法 通过 学 习 淤 杰 量 来 完成 特征 学 习 。 通 第 ， 
给 定 v 和 h ， 实 验 观察 显示 区 |h | V | 或 arg max, p(h, v ) 都 是 v 的 良 
好 特征 映射 。 


16.6” 推 新 和 近似 推 靳 


解决 变量 之 间 如 何 相互 关联 的 问题 是 我 们 使 用 概率 模型 的 一 个 主要 方 
式 。 给 定 一 组 医学 测试 ， 我 们 可 以 询问 患者 可 能 患 有 什么 疾病 。 在 一 个 
潜 变 量 模型 中 ， 我 们 可 能 需要 提取 能 够 描述 可 观察 变量 v 的 特征 
Ejh | v] 。 有 时 我 们 需要 解决 这 些 问题 来 执行 其 他 任务 。 我 们 经 常 使 
用 最 大 似 然 的 准则 来 训练 我 们 的 模型 。 由 于 


log p(v) = Ep~p(nlv) [log p(h, v) — log p(h | v)| (16.9) 
学 习 过 程 中 ， 我 们 经 常 需要 计算 ph |  v  )。 所 有 这 些 都 是 推断 


(inference) 问题 的 例子 ， 其 中 我 们 必须 预测 给 定 其 他 变量 的 情况 下 一 
些 杰 量 的 值 ， 或 者 在 给 定 其 他 变量 值 的 情况 下 预测 一 些 变 量 的 概率 分 
布 。 


不 驻 的 是 ， 对 于 大 多 数 有 趣 的 深 大 模型 来 说 ， 即 使 我 们 使 用 结构 化 图 柑 
型 来 刹 化 这 些 推断 问题 ， 它 们 仍然 古 难 以 处 理 的 。 图 结构 允许 我 们 用 合 
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有 解决 方案 ， 并 找到 一 个 解决 方案 《〈 如 采 存 在 ) 束 可 以 解决 。 孝 中 的 问 
题 项 要 计算 解决 方 采 的 数量 。 为 了 构建 最 坏 情况 的 图 模型 ， 我 们 可 以 设 
想 一 下 在 3-SAT 问 题 中 定义 二 值 变 量 的 图 模型 。 我 们 可 以 对 这 些 变量 施 
加 均匀 分 布 。 然 后 可 以 为 每 个 子 句 湛 加 一 个 二 值 洲 变量 ， 来 表示 每 个 子 
名 是否 成 立 。 然 后 ， 可 以 添 辑 一 个 浴 变 量 ， 来 表示 所 有 于 句 是 合成 

区 。 这 可 以 通过 构造 一 个 海 变 量 的 缩减 树 来 完成 ， 树 中 的 每 个 结 扣 表示 
其 他 两 个 变量 是 售 成 立 ， 从 而 不 需要 构造 一 个 大 的 团 。 该 树 的 叶 征 每 个 
于 名 的 变量 。 树 的 根 表 示 整 个 问题 是 售 成 立 。 由 于 子 名 的 均匀 分 布 ， 缩 
减 树 根 结 点 的 边缘 分 布 表示 于 名 有 多 少 比例 是 成 立 的 。 虽 然 这 是 一 个 设 
计 的 最 趟 情况 的 例 于 ，NP-hard 图 确实 会 频 灶 地 出 现在 现实 世界 的 场景 
中 。 


这 促使 我 们 使 用 近似 推 产 。 在 深度 学 习 中 ， 这 通 币 涉及 变 分 推 亲 ， 其 中 
通过 寻求 尽 可 能 接近 真实 分 布 的 近似 分 布 dh |v ) 来 坎 近 真实 分 布 p(h 
| v)。 这 个 技术 将 在 第 19 章 中 深入 讨论 。 


16.7 ”结构 化 概率 模型 的 深度 学 习 方 法 


深度 条 习 从 业者 退 第 与 其 他 从 事 结构 化 概率 柑 型 研究 的 机 覃 学 习 研 究 者 
使 用 相同 的 基本 计算 工具 。 然 而 ， 在 深 大 学 习 中 ， 我 们 通 第 对 如 何 组 合 
这 些 工具 作出 不 同 的 设计 决定 ， 叶 人 致 忆 体 算法 、 模 型 与 更 传统 的 图 模型 
具有 非常 不 同 的 风格 。 


深度 学 习 并 不 总 是 涉及 特别 深 的 图 模型 。 在 图 模型 中 ， 我 们 可 以 根据 图 
模型 的 图 而 不 是 计算 图 来 定义 模型 的 深度 。 如 果 从 潜 变量 hi 到 可 观察 变 
量 的 最 短路 径 是 j 步 ， 我 们 可 以 认为 潜 变 量 h ， 处 于 深度 j。 我 们 通常 将 模 
型 的 深度 描述 为 任何 这 样 的 h ; 的 最 大 深度 。 这 种 深度 不 同 于 由 计算 图 定 
义 的 深度 。 用 于 深度 学 习 的 许多 生成 模型 没有 洪 变 量 或 只 有 一 层 潜 变 
量 ， 但 使 用 深度 计算 图 来 定义 模型 中 的 条 件 分 布 。 

深度 学 习 基 本 上 总 是 利用 分 布 式 表 示 的 思想 。 即 使 是 用 于 深度 学 习 目 的 


的 浅 层 模型 《例如 预 训练 浅 层 模 型 ， 稍 后 将 形成 深层 模型 ) ， 也 几乎 总 
旦 共有 单个 大 的 光 变 量 层 。 深 度 学 习 模 型 通 负 具有 比 可 观 蛙 变量 更 多 的 
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实现 。 


相 比 之 下 ， 传 统 的 图 模型 通常 包含 至 少 是 偶尔 观察 到 的 变量 ， 即 使 一 些 
训练 样本 中 的 许多 变量 随机 地 丢失 。 传 统 模型 大 多 使 用 高 阶 项 和 结构 学 
习 来 捕获 变量 之 间 复 杂 的 非 线性 相互 作用 。 如 果 有 潜 变量 ， 则 它们 的 数 
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强 评 变量 提前 包 人 台 了 任何 特定 的 台 义 一 一 训练 算法 可 以 目 由 地 开 及 对 特 
定数 据 集 建 模 所 需要 的 概念 。 在 事后 解释 洲 变 量 通 音 是 很 困难 的 ， 但 是 
可 视 化 技术 可 以 得 到 它们 表示 的 一 些 粗略 表征 。 当 潜 变 量 在 传统 图 模型 
中 使 用 时 ， 它 们 退 弟 被 赋予 一 些 特定 含义 一 一 比如 文档 的 主题 、 和 学 生 的 
智力 、 导 致 患者 症状 的 疾病 等 。 这 些 模 型 通常 由 研究 者 解释 ， 并 且 通 当 
具有 更 多 的 理论 傈 证， 但 是 不 能 扩展 到 复杂 的 问题 ， 并 且 不 能 像 深度 杭 
型 一 翌 在 许多 不 同 衣 景 中 重复 使 用 。 


男 一 个 明显 的 区 别 古 深度 学 习 方法 中 经 第 使 用 的 连接 类 型 。 深 度 图 模型 
通 币 共有 大 的 与 其 他 单元 组 全 连接 的 单元 组 ， 使 得 两 个 组 之 间 的 相互 作 
FAR] DAHA SAS Mes. FESTA AURAL ASB ib eRe, FPA REDE 
量 的 连接 选择 可 以 单独 设计 。 模 型 结构 的 设计 与 推 关 算法 的 选择 又 密 相 
天 。 疼 模型 的 传统 方法 通 第 旧 在 体 持 精确 推断 的 可 解 性 。 当 这 个 约束 太 
强 时 ， 我 们 可 以 采用 一 种 沅 行 的 被 称 为 环 状 信念 传播 (loopy belief 
propagation) 的 近似 推 半 算法 。 这 两 种 方法 通 币 在 稀 芷 连接 网 上 都 有 很 
好 的 效 末 。 相 比 之 下 ， 在 深度 学 习 中 使 用 的 模型 倾 问 于 将 每 个 可 见 单 元 
Vi 连接 到 非常 多 的 隐藏 单元 hj 上， 从 而 便 得 h 可 以 获得 一 个 vi 的 分 布 式 
表示 (也 可 能 是 其 他 几 个 可 观察 变量 ) 。 分 布 式 表示 上 其 有 许多 优点 ， 但 
是 从 图 模型 和 计算 复 林 性 的 观点 来 看 ， 分 布 式 表示 有 一 个 缺点 束 是 很 难 
产生 对 于 精确 推 闻 和 环 状 信 念 传播 等 传统 技术 来 说 足够 稀 距 的 网 。 结 

末 ， 大 规模 几 模 型 和 深度 图 模型 最 大 的 区 列 之 一 就 是 深度 学 习 中 几乎 从 
来 不 会 使 用 环 状 信念 传播 。 相 反 ， 许 多 深度 学 习 模 型 可 以 设计 来 加 速 

Gibbs 采 样 或 者 变 分 推 新 。 此 外 ， 深 上 度 学 习 模 型 包含 了 大 量 的 次 变量 ， 

使 得 高 效 的 数值 计算 代 但 显得 格外 重要 。 除 了 选择 高 级 推 产 算法 之 外 ， 
这 提供 了 另外 的 动机 ， 用 于 将 络 点 分 组 成 层 ， 相 邻 两 层 之 间 用 一 个 矩阵 
来 摘 述 相互 作用 。 这 要 求实 现 算 法 的 单个 步骤 可 以 实现 高 效 的 矩阵 乘积 
运算 ， 或 者 专门 适用 于 黎 焉 连接 的 操作 ， 例 如 块 对 角 和 矩阵 乘积 或 耸 积 。 
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度 。 与 简化 模型 直到 它 的 每 一 个 量 都 可 以 衫 精确 计算 不 同 的 是 ， 我 们 仅 
仪 二 接 使 用 数据 运行 或 者 是 训练 ， 以 增强 柑 型 的 能 力 。 一 般 我 们 使 用 边 
绿 分 布 不 能 计算 的 模型 ,但 可 以 从 中 简单 地 采 近 似 样 本 。 我 们 经 党 训练 
具有 难以 处 理 的 目标 函数 的 模型 ， 甚 至 不 能 在 合理 的 时 间 内 近似 ， 但 是 
如 朵 我 们 能 够 融 效 地 获得 这 样 一 个 函数 的 标 度 估计 ， 仍 然 能 够 近似 训练 
异型。 深度 学 习 方 法 通 第 是 找 出 我 们 绝对 需要 的 最 小 量 信息 ， 然 后 找 出 
如 何 尽 快 得 到 该 信息 的 合理 近似 。 


16.7.1 实例 : ERROR ZK SAL 


SC PR IRR 2K SAL (Restricted Boltzmann Machine, RBM) 
(Smolensky, 1986) Be Se x2 (harmonium) 是 图 模型 如 何 用 于 深 
虐 学 习 的 典型 例子 。RBM 本 二 不 是 一 个 深层 模型 。 相 有 反 ， 它 有 一 层 潜 
变量 ， 可 用 于 学 习 输 入 的 表示 。 在 第 20 曹 中， 我 们 将 看 到 RBM 如 何 被 
用 来 构建 许多 的 深层 模型 。 在 这 里 ， 我 们 举例 展示 了 RBM 在 许多 深度 
图 模型 中 使 用 的 实践 : 它 的 单元 被 分 成 很 大 的 组 ， 这 种 组 称 作 层 ， 层 之 
团 的 连接 由 窍 阵 摘 述 ， 连 通 性 相对 窗 集 。 访 模型 被 设计 为 能 够 进行 高 效 
的 Gibbs 采 样 ， 并 且 模 型 说 计 的 重点 在 于 以 很 高 的 目 由 度 来 学 习 淤 弯 
量 ， 而 潜 变 量 的 含义 并 不 是 设计 者 指定 的 。 之 后 在 第 20.2 方 ， 我 们 将 更 
评 细 地 再 次 讨论 RBM。 


标准 的 RBM 是 具有 二 值 的 可 见 和 隐藏 单 元 的 其 于 能 量 的 模型 。 其 能 量 
pA BUA 


E(v,h) =—b'v—cl!h—v'Wh (16.10) 


其 中 b, c AW 部 是 无 约束 、 实 值 的 可 等 习 参数 。 我 们 可 以 看 人 到， 模型 
BT PZ oc: ov 和 h ， 它 们 之 间 的 相互 作用 由 窍 阵 wW RHR. 1% 
模型 在 图 16.14 中 以 图 的 形式 描绘 。 该 图 能 够 使 我 们 更 清楚 地 发 现 ， 该 
模型 的 一 个 重要 方面 是 在 任何 两 个 可 见 单 元 之 间或 任何 两 个 隐藏 单 元 之 
a MEE OA E I A 
TREI) 。 





图 16.14 ~AR AR AY A 28 SA RBM 
对 RBM 结 构 的 限制 产生 了 民 好 的 属性 
p(h | v) = [] pt: | v) (16.11) 


以 及 


p(v | h) = | | p(v; | b) (16.12) 


独立 的 条 件 分 布 很 容易 计算 。 对 于 二 元 的 受 限 玻 尔 效 曼 机 ， 我 们 可 以 得 
FI 


amu = 1 | y] = a(v! W a F bi) (16.13) 
ph; =0 |v) =1—o(v' W.i+ b) (16.14) 
结合 这 些 属性 可 以 得 到 高 效 的 块 吉 布 斯 采样 (block Gibbs 


Sampling) ， 它 在 同时 采样 所 有 h 和 同时 采样 所 有 v 之 间 交 替 。RBM 模 
型 通过 Gibbs 米 样 产 生 的 样本 展示 在 图 16.15 中 。 
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图 16.15 ”训练 好 的 RBM 的 样本 及 其 权重 。〈 左 ) 用 MNIST 训 练 模型 ， 然 后 用 Gibbs 采 样 进行 采 

样 。 每 一 列 是 一 个 单独 的 Gibbs 采 样 过 程 。 每 一 行 表示 另 一 个 1000 步 后 Gibbs 采 样 的 输出 。 连 续 

的 样本 之 间 彼 此 高 度 相 关 。《〈 右 ) 对 应 的 权重 回 量 。 将 本 图 结果 与 图 13.2 中 擅 述 的 线性 因子 模 

型 的 样本 和 权重 相 比 。 由 于 RBM 的 先 验 p( h ) 没 有 限制 为 央 子 ， 这 里 的 样本 表现 得 好 很 多 。 有 采样 
时 RBM 能 够 学 习 到 哪些 特征 震 要 一 起 出 现 。 男 一 方面 襄 ，RBM 后 验 p( h | v ) 是 因子 的 ， 而 稀 玻 
编码 的 后 验 并 不 是 ， 所 以 在 特征 提取 上 稀 下 C 编 码 模 型 表现 得 更 好 。 其 他 的 模型 可 以 使 用 非 因子 
的 p( h ) 和 非 因 子 的 p( h | v)。 图 片 经 LISA (2008) 允许 转载 


由 于 能 量 函 数 本 身 只 是 参数 的 线性 函数 ， 很 容易 获取 能 量 函 数 的 导数 。 
例如 ， 





这 两 个 属性 ， 高 效 的 Gibbs 采 样 和 导数 计算 ， 使 训练 过 程 变 得 非常 方 


便 。 在 第 18 重 中 ， 我 们 将 看 到 ， 可 以 通过 计算 应 用 于 这 种 来 目 合 型 样本 
的 导数 来 训练 无 问 模型 。 


训练 模型 可 以 得 到 数据 v 的 表示 hh 。 BANA He EAE (hv) h| 作为 
一 组 描述 v 的 特征 。 

总 的 来 说 ，RBM 展 示 了 典型 的 图 模型 深度 学 习 方 法 : (EASES 

量 ， 并 由 和 窍 阵 参数 化 层 之 间 的 高 效 相互 作用 来 完成 表示 学 习 。 


图 模型 为 插 述 概率 模型 提供 了 一 种 优雅 、 灵 活 、 清 晰 的 语言 。 在 后 续 的 
革 广 中 ， 我 们 将 使 用 这 种 语言 ， 以 其 他 视角 来 拍 述 各 种 各 样 的 深度 叙 率 


模型 。 








D AAR TREN ce Hees FE E E Ae PF OA LGA A, PFERDE, Bae 
网 页 的 截图 等 。 


(2) 当 我 们 希望 “强调 ”从 网 络 中 计算 出 的 值 的 “推断 ”本 质 ， 即 强调 这 些 值 代表 的 是 置信 程度 大 小 
而 不 是 事件 的 频率 时 ，Judea Pearl 建 议 使 用 “ 贝 叶 斯 网 络 ” 这 个 术语 











(3) 图 的 一 个 团 是 图 中 结 扣 的 一 个 子 集 ， 并 且 其 中 的 点 是 全 连接 有 的 。 





(4) 一 个 通过 归 一 化 团 势 能 乘积 定义 的 分 布 也 被 称 作 训 布 斯 分 布 (Gibbs distribution〉。 


(5) 对 于 某 些 模型 ， 我 们 可 以 仍然 使 用 约束 优化 方法 来 确保 Z 存 在 。 
A 入 人 Bawa > Na » SN 
5175 | BRE RO TTI 


随机 算法 可 以 粗略 地 分 为 两 类 : Las ”Vegas 算 法 和 蒙特 卡 罗 息 法 。Las 
Vegas 算法 总 是 精确 地 返回 一 个 正确 答案 〈 或 者 返回 算法 失败 了 ) 。 这 
美方 法 通 利 需要 占用 随机 量 的 计算 资产 《一般 指 内 存 或 运行 时 间 ) 。 与 
此 相对 的 ， 桶 特 卡 罗 方 法 返回 的 答 条 其 有 随机 大 小 的 销 误 。 人 花 忱 更 多 的 
计算 资源 〈 通 和 包括 内 存 和 运行 时 间 ) 可 以 减少 这 种 错误 。 在 任意 固定 
的 计算 资源 下 ， 脓 特 卡 罗 算 法 可 以 得 到 一 个 近似 解 。 


对 于 机 融 学 习 中 的 许多 问题 来 说 ， 我 们 很 难得 到 精确 的 答案 。 这 区 问 题 
很 难 用 精确 的 确定 性 算法 如 Las Vegas 算法 解决 。 取 而 代 之 的 是 确定 性 的 
VENA BRE RF UW ITE © PAT ED La Od HAASE ty ha 
AS Bt EOE BRE BS TE 


17.1 采样 和 蒙特 卡 罗 方 法 


机 和 豆 学 习 中 的 许多 重要 工具 都 基于 从 未 种 分 布 中 采样 ， 以 及 用 这 些 样本 
对 目标 量 做 一 个 月 特 卡 多 估计。 


17.1.1 为 什么 需要 采样 


有 许多 原因 使 我 们 硕 弓 从 东 个 分 布 中 采样 。 当 我 们 需要 以 较 小 的 代价 近 
似 许多 项 的 和 或 东 个 积分 时 ， 采 样 是 一 种 很 灵活 的 选择。 有 时 候 ， 我 们 
使 用 它 加 速 一 些 很 费时 却 多 于 处 理 的 求 和 估计 ， 残 像 我 们 使 用 小 批量 对 
整个 训练 代价 进行 子 采样 一 样 。 在 其 他 情况 下 ， 我 们 需要 近似 一 个 难以 


处 理 的 求 和 或 积分 ， 例 如 信 计 一 个 无 回 模 型 中 配 分 函数 对 数 的 梯度 时 。 
在 许多 其 他 情况 下 ， 抽 样 实际 上 是 我 们 的 目标 ， 例 如 我 们 想 训练 一 个 可 
以 从 训练 分 布 采 样 的 模型 。 


17.1.2 S24 RS REY Ea 

当 无 法 精确 计算 和 或 积分 (例如 ， 和 具有 指数 数量 个 项 ， 且 无 法 被 精确 
简化 ) 时， 通常 可 以 使 用 蒙特 卡 罗 采 样 来 近似 它 。 这 种 想法 把 和 或 者 积 
分 视 作 某 分 布下 的 期 望 ， 然 后 通过 估计 对 应 的 平均 值 来 近似 这 个 期 望 。 
4 


s=)_ p(x) f(x) = Eplf(x)] (17.1) 


s= | pæ)f(2)dz = B,[f C) (17.2) 


为 我 们 所 需要 估计 的 和 或 者 积分 ， 写 成 期 望 的 形式 ，p 和 是 一 个 关于 随机 
变量 x 的 概率 分 布 〈《 求 和 时 ) 或 者 概率 密度 函数 〈 求 积分 时 ) 。 


我 们 可 以 通过 从 p 中 抽取 n 个 样本 x 四 ，...， x 四 来 近似 s 并 得 到 一 个 经 
验 平 均值 

并 

= n2 fle ) (17.3) 


下 面 几 个 性 质 表明 了 这 种 近似 的 合理 性 。 首 先 很 容易 观察 到 人 这 个 估计 
是 无 偏 的 ， 由 于 


Elin] = -PEGO = sss (17.4) 


| 


此 外 ， 根 据 大 数 定理 (Law of large number) ， 如 果 样 本 x O 是 独立 同 
分 布 的 ， 那 么 其 平均 值 几乎 必然 收 合 到 期 望 值 ， 即 


lim sn =s (17.5) 
只 需要 满足 各 个 单项 的 方差 Var [f( x O) 有 界 。 详 细 地 说 ， 我 们 考虑 
当 n 增 大 时 S， 的 方差 。 只 要 满足 Var [f(x )] <%， 方差 Var|$;| 就 
会 减 小 并 收敛 到 0: 


tini] = = > va (17.6) 
_ Varlf(x)] (17.7) 


IRS fa) Fg HA SR J re BAT ey ch eee 2 SB ETE, BK 
者 等 价 地 说 是 蒙特 卡 罗 估 计 的 期 望 误差 。 我 们 计算 了 f( x © ) 的 经 验 均 值 
和 方差 中， 然后 将 估计 的 方差 除 以 样本 数 n 来 得 到 Var|s;, | 的 估计 。 中 
心 极限 定理 (central limit theorem) 告诉 我 们 S， 的 分 布 收 敛 到 以 s 为 均 


值 y Varlf (x)| 为 方才 的 正 态 分 布 。 这 使 得 我 们 可 以 利用 正 态 分 布 


n 
的 累积 函数 来 估计 S， 的 置信 区 间 。 


以 上 的 所 有 结论 都 依赖 于 我 们 可 以 从 基准 分 布 p(x ) 中 轻易 地 采样 ， 但 是 
这 个 假设 并 不 是 一 直 成 立 的 。 当 我 们 无 法 从 p 中 采样 时 ， 一 个 备 选 方案 
是 用 第 17.2 节 讲 到 的 重要 采样 。 一 种 更 加 通用 的 方式 是 构建 一 个 收敛 到 
目标 分 布 的 估计 序列 。 这 束 是 马尔 可 夫 链 这 特 卡 罗 方 法 〈 见 第 17.3 

W) 。 


17.2 重要 采样 


如 方程 (17.2) Aras, FERRER RY TIE, ORD REM 分 解 ， 确 
定 积 分 中 哪 一 部 分 作为 概率 分 布 p(x ) 以 及 哪 一 部 分 作为 被 积 的 函数 f(x ) 
(我 们 感 兴 趣 的 是 估计 fx ) 在 概率 分 布 p( x ) 下 的 期 望 ) 是 很 关键 的 一 
步 。p( x )f(x ) 不 存在 唯一 的 分 解 ， 因 为 它 总 是 可 以 被 与 成 





aka 


在 这 里 ， 我 们 从 q 分 布 中 采样 ， 然 后 估计 了 十、 在 此 分 布下 的 均值 。 许 多 


情况 中 ， 我 们 希望 在 给 定 p 和 f 的 情况 下 计算 攻 个 期 前 ， 这 个 问题 既然 是 
求 期 蛆 ， 那 么 很 目 然 地 p 和 f 十 一 种 分 解 选择 。 然 而 ， 如 来 考 上 处 达 到 条 给 
定 精度 所 圾 要 的 样本 数量 ， 这 个 问题 最 初 的 分 解 选择 不 是 最 优 的 选择 。 
FERE RAEE ”可 以 被 简 早 地 推导 出 来 。 这 种 最 优 的 采样 函 
数 q” 对 应 所 谓 的 最 优 午 要 采样 。 


AR 17.8) 所 示 的 关系 中 可 以 发 现 ， 任 意 蒙特 卡 罗 估计 


$=- E fe) (17.9) 


i=1,g0) ~p 


可 以 被 转化 为 一 个 重要 采样 的 估计 


a ae l®)) fae 
bes X. (17.10) 


我 们 可 以 容易 地 发 现 估计 的 期 望 与 g 分 布 无 关 : 
Eq|Sq] = E,[$,] = $ een 
然而 ， 重 要 采样 的 方差 可 能 对 d 的 选择 非常 敏感 。 这 个 方差 可 以 表示 为 


Var|S,| = Var 一 一 /n (17-12) 


JARRERA SME, q iE 
WE o Ca 
q (x) = 7 


在 这 里 Z 表 示 归 一 化 常数 ， 选 择 适 当 的 Z 使 得 q* (x ) 之 和 或 者 积分 为 1。 
一 个 更 好 的 重要 采样 分 布 会 把 更 多 的 权重 放 在 被 积 函 数 较 大 的 地 方 。 事 
实 上 ， 当 f( x ) 的 正 负 符号 不 变 时 ，Var|5g*| 三 0 ， 这 意味 着 当 使 用 
WRGD, JA ri BE —“ PARE So. SS, MME Ait eq 





(17.13) 


”时 已 经 解决 了 原 问 题 。 所 以 在 实践 中 这 种 只 需要 米 样 一 个 样本 的 方法 
往往 是 无 法 实现 的 。 


对 于 重要 采样 来 说 ， 任 意 q 分 布 虱 是 可 行 的 〈 从 得 到 一 个 期 性 上 正确 的 
值 的 角度 来 说 ) ，q“” 指 的 十 最 优 的 q 分 布 〈“ 从 得 到 最 小 方 下 的 角度 上 元 
I) o Mq ”中 采样 往往 是 个 可行 的 ， 但 是 其 他 仍然 能 降低 方 和 天 的 q 的 选 
择 还 是 可 行 的 。 


男 一 种 方法 是 采用 有 偏重 要 采样 (biased importance sampling) ， 这 种 
方法 有 一 个 优势 ， 即 不 需要 归 一 化 的 p 或 q 分 布 。 在 处 理 离 胡 变量 时 ， 有 
偏 备 要 采样 估计 可 以 表示 为 





n g) i 
Pa Peat (a! l) 








But ga 
n g?) s 
Paii ATCA ) ) 
-一 一 (17.15) 
Litt FeO} 
~/ (4%) ; 
Di k fle) 
Thl u (17.16) 


y pa) 
i=1 F(a) 





其 中 万 和 分 别 是 分 布 p 和 q 的 未 经 归 一 化 的 形式 ， x @ 是 从 分 布 g 中 抽 
取 的 样本 。 这 种 估计 是 有 偏 的 ， 因 为 有 E[$BIs| Æ s> AAMn> 0A 
程式 〈17.14) 的 分 母 收敛 到 1 时 ， 等 式 才 渐 近 地 成 立 。 所 以 这 一 估计 也 
被 称 为 渐 近 无 偏 的 。 

一 个 好 的 q 分 布 的 选择 可 以 显著 地 提高 蒙特 卡 罗 估 计 的 效率 ， 而 一 个 粳 

糕 的 q 分 布 选择 则 会 使 效率 更 糟糕 。 我 们 回 过 头 来 看 看 方程 式 〈17.12) 

会 发 现 ， meteta PAE E] z) 很 大 ， 那 么 这 个 估计 的 方差 
也 会 很 大 。 当 q(x ) 很 小 ， 而 f(x ) 和 p( x ) 都 较 大 并 且 无 法 抵消 qd 时 ， 这 种 
情况 会 非常 明显 。q 分 布 经 常会 取 一 些 简单 常用 的 分 布 使 得 我 们 能 够 从 q 
分 布 中 容易 地 采样 。 当 x 是 高 维 数据 时 ，q 分 布 的 简单 性 使 得 它 很 难 与 p 
或 者 p | f | ALAC. 4g(a™) > p(x”)! f(z 中) 时， 重要 采样 采 


到 了 很 多 无 用 的 样本 (很 小 的 数 或 零 相 加 ) 。 另 一 种 相对 少见 的 情况 是 
ga) K p(a)| f(a)| ， 相 应 的 比值 会 非常 大 。 正 因为 后 一 个 
事件 是 很 少 发 生 的， 这 种 样本 很 难 被 采 到 ， 通 常 使 得 对 s 的 估计 出 现 了 

典型 的 欠 估计 ， 很 难 被 整体 的 过 估计 抵消 。 这 样 的 不 均匀 情况 在 高 维 数 
据 屡见不鲜 ， 因 为 在 高 维度 分 布 中 联合 分 布 的 动态 域 可 能 非常 大 。 


尽管 存在 上 述 的 风险 ， 但 是 重要 采样 及 其 变种 在 机 才 学 习 的 应 用 中 仍然 
扮演 着 重要 的 角色 ， 包 括 深 虐 学 习 算 法 。 例 如 ， 重 要 玉 样 被 应 用 于 加 速 
训练 具有 大 规模 词 表 的 神经 网 络 语言 模型 的 过 程 中 〈 见 第 12.4.3.3 市 》 
或 者 其 他 有 着 大 量 输出 结 点 的 神经 网 络 中 。 此 外 ， 还 可 以 看 到 重要 采样 
应 用 于 估计 配 分 函数 (一 个 概 康 分布 的 归 一 化 常数 ) ， 详 见 第 18.7 节 ， 
以 及 在 深度 有 问 图 模型 比如 变 分 目 编码 占 中 估计 对 数 似 然 ( 详 见 第 
20.10.3713) 。 采 用 随机 梯度 下 降 训练 模型 参数 时 重要 采样 可 以 用 来 改进 
对 代价 函数 梯度 的 估计 ， 尤 其 是 分 类 右 这 样 的 檬 型 ， 其 中 代价 函数 的 大 
部 分 代价 来 自 少 量 错 误 分 类 的 样本 。 在 这 种 情况 下 ， 更 加 频繁 地 抽取 这 
些 困 难 的 样本 可 以 减 小 梯度 估计 的 方 震 (Hinton etal., 2006a) 。 


17.3 ”马尔 可 夫 链 蒙特 卡 罗 方 法 


在 许多 实例 中 ， 我 们 和 希望 采用 对 特 卡 罗 方 法 ， 然 而 往往 又 不 存在 一 种 简 
单 的 方法 可 以 直接 从 目标 分 布 pvvia G) 中 精确 采样 或 者 一 个 好 的 《〈 方 天 
较 小 的 ) 重要 采样 分 布 d0 x )。 在 深度 学 习 中 ， 当 分 布 p jjqo (X ) 表 示 成 
无 同 模 型 时 ， 这 种 情况 往往 会 发 生 。 在 这 种 情况 下 ， 为 了 从 分 布 p model 
(x ) 中 近似 采样 ， 我 们 引入 了 一 种 称 为 马尔 可 夫 链 (Markov Chain) 的 
数学 工具 。 利 用 马尔 可 夫 链 来 进行 脓 特 卡 罗 估 计 的 这 一 类 算法 被 称 为 己 
尔 可 夫 链 蒙特 卡 罗 (Markov Chain Monte Carlo, MCMC) 方法 。 
Koller and Friedman (2009) 46 S Kose Fa WER Figs Sy 7K A] QE BEE RY 
算法 在 机 器 学 习 中 的 应 用 。MCMC 技 术 最 标准 、 最 一 般 的 理论 保证 只 适 
用 于 那些 各 状态 概率 芍 不 为 零 的 模型 。 因 此 ， 这 些 技术 最 方便 的 使 用 方 
法 是 用 于 从 基于 能 量 的 模型 (Energy-based model) 即 p(x )ccexp(-E(x 
)) 中 采样 ， 见 第 16.2.4 节 。 在 EBM 的 公式 表述 中 ， 每 一 个 状态 所 对 应 的 
概 诗 都 不 为 0(。 事 实 上 ，MCMC 方 法 可 以 被 广泛 地 应 用 在 包 侣 0 概率 状态 
的 许多 概率 分 布 中 。 然 而 ， 在 这 种 情况 下 ， 关 于 MCMC 方 法 性 能 的 理论 
保证 只 能 依据 基体 不 同 奖 型 的 分 布 具 体 分 析 证 明 。 在 深度 学 习 中 ， 我 们 
通 沿 依赖 于 那些 一 般 的 理论 保证 ， 其 在 所 有 基于 能 量 的 模型 都 能 目 然 成 
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为 了 解释 从 基于 能 量 的 模型 中 采样 困难 的 原因 ， 我 们 考虑 一 个 包含 两 个 
变量 的 EBM 的 例子 ， 记 p(a,b) 为 其 分 布 。 为 了 末 a， 我 们 必须 先 从 p(a | b) 
中 采样 ， 为 了 采 b， 我 们 又 必须 从 p(b | a) 中 采样 。 这 似乎 成 了 琼 手 的 先 
有 鸡 还 是 和 完 有 人 梨 的 问题 。 有 问 模 型 避免 了 这 一 问题 因为 它 的 图 是 有 问 无 
环 的 。 为 了 完成 原始 采样 (ancestral sampling) ， 在 给 定 每 个 变量 的 所 
有 父 结 点 的 条 件 下 ， 我 们 根据 拓扑 顺序 采样 每 一 个 变量 ， 这 个 变量 是 确 
定 能 够 被 采样 的 〈 详 见 第 16.3 节 ) 。 原 始 采 样 定义 了 一 种 高 效 的 、 单 遍 
的 方法 来 抽取 一 个 样本 。 


在 EBM 中 ， 我 们 退 过 使 用 扎 尔 可 夫 链 来 采样 ， 从 而 避 倪 了 先 有 鸡 还 古 完 
有 香 的 问题 。 马 尔 可 夫 链 的 核心 思想 是 从 某 个 可 取 任 意 值 的 状态 x 出 
Ro BEARER, RIESA EIAS x 。 最 终 x 成 为 了 一 个 
从 p(x ) 中 抽出 的 〈 非 营 接 近 ) 比较 一 般 的 样本 。 在 正 陈 的 定义 中 ， 马 泵 
可 夫 链 由 一 个 随机 状态 x 和 一 个 转移 分 布 TLX | x ) 定 义 而 成 ，T( x 
”| x ) 古 一 个 概 球 分布， 说 明了 给 定 状 态 x 的 情况 下 随机 地 转移 到 x 
”的 概率 。 运 行 一 个 号 尔 可 夫 链 意味 看 根据 转移 分 布 T( x ” | x ) 采 出 
的 值 x ”来 更 新 状态 x 。 


为 了 给 出 MCMC 方 法 为 何 有 效 的 一 些 理论 解释 ， 重 参数 化 这 个 问题 是 很 
有 用 的 。 首 抑 我 们 关注 一 些 简 单 的 情况 ， 其 中 随机 变量 x ”有 可 效 个 状 
态 。 我 们 将 这 种 状态 简单 地 记 作 正 整 数 x。 不 同 的 整数 x 的 大 小 对 应 看 原 
台 问 题 中 x 的 个 同 状 态 。 


接 下 来 我 们 考虑 如 和 果 并 行 地 运行 无 穷 多 个 马尔 可 夫 链 的 情况 。 不 同 马 和 尔 
可 夫 链 的 所 有 状态 都 采样 自 某 一 个 分 布 g (9 (x)， 在 这 里 t 表 示 消 耗 的 时 间 
数 。 开 始 时 ， 对 每 个 马尔 可 夫 链 ， 我 们 采用 一 个 分 布 d ”来 任意 地 初始 
化 x。 之 后 ，q 9 与 所 有 之 前 运行 的 马尔 可 夫 链 有 有关。 我们 的 目标 是 q © 
(Xx) 收敛 到 p(x)。 


因为 我 们 已 经 用 正 整 数 x 香 参 数 化 了 这 个 问题 ， 我 们 可 以 用 一 个 同 量 vy 
来 插 述 这 个 概率 分 布 q， 


g(x=%) =o (17.17) 


然后 我 们 考虑 更 新 单一 的 与 尔 可 天 链 ， 从 状态 X 到 新 状态 X” 。 单 一 状态 
FERS Fx! 的 概率 可 以 表示 为 


qD (a!) = X aP (ETa | 2) (17.18) 


根据 状态 为 整数 的 参数 化 设 定 ， 我 们 可 以 将 转移 算 于 IT 表示 成 一 个 矩阵 
A > EREA 的 定义 如 下 : 


使 用 这 一 定义 ， 我 们 可 以 改写 式 〈17.18) 。 不 同 于 之 前 使 用 gq 和 T 来 理 
解 单个 状态 的 更 新 ， 我 们 现在 可 以 使 用 v 和 A 来 插 述 当 我 们 更 新 时 并 
行 运行 的 ) 不 同 马 尔 可 夫 链 上 你 个 分 布 是 如 何 变化 的 : 


vt = AyD (17.20) 
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的 矩阵 被 称 为 随机 和 矩阵 (Stochastic Matrix) 。 如 果 对 于 任意 状态 x 到 任 
意 其 他 状态 x 看 在 一 个 t 使 得 转移 概率 不 为 0， 那 么 Perron-Frobenius 定 
JE (Perron, 1907; Frobenius, 1908) 可 以 保证 这 个 矩阵 的 最 大 特征 值 
是 实数 且 大 小 为 1。 我 们 可 以 看 到 所 有 的 特征 值 随 看 时 间 呈 现 指数 弯 
化 : 


v®) = (Vdiag(A) VTH tv® = Vdiag( A) Vb yO (17.29) 


IRS SS A ASSP EE PB BIO. FE EI I BY 
PSAEct RSQ ATCA RUEFERBE A 只 有 一 个 对 应 特征 值 为 1 的 特征 同 
量 。 上 所 以 这 个 过 程 收 敛 到 平稳 分 布 (Stationary Distribution) ， 有 时 也 
被 称 为 均衡 分 布 〈Equilibrium Distribution) 。 收 敛 时 ， 我 们 得 到 


i= A= (17.23) 


oS PUN BE Oo ETE TA) TE PEA 
MIRER v 一定 古 特征 值 为 1 所 对 应 的 特征 癌 量 。 这 个 条 件 你 证 收敛 
到 了 平稳 分 布 以 后 ， 髓 音 复 转移 米 样 过 程 个 会 改变 所 有 不 同 马 尔 可 夫 链 
上 状态 的 分 布 〈 尺 定 转 移 算 子 目 然 而 然 地 会 改变 每 个 持 独 的 状态 〉。 


如 来 我 们 正确 地 选择 了 转移 算 子 IT， 那么 最 终 的 平稳 分 布 q 将 会 等 于 我 们 
所 布 望 米 样 的 分 布 p。 我 们 会 将 第 17.4 市 介绍 如 何 选 择 T。 


可 数 状 态 马尔 可 夫 链 的 大 多 数 性 质 可 以 补 推 广 到 连续 状态 的 马尔 可 夫 链 
中 。 在 这 种 情况 下 ， 一 些 研究 者 把 这 种 马尔 可 夫 链 称 为 哈里 斯 链 
(Harris Chain) ， 但 是 我 们 将 这 两 种 情况 都 称 为 马尔 可 夫 链 。 通 第 在 一 
些 宽松 的 条 件 下 ， 一 个 市 有 转移 算 子 T 的 马尔 可 夫 链 都 会 收敛 到 一 个 不 
动 点 ， 这 个 不 动 点 可 以 写成 如 下 形式 : 


q(x!) a Te | x) (17.24) 


OAT EY A AS A ST BTN 7 eK (17.23) . 4x 是 离散 值 
上 时， 这 个 期 望 对 应 看 求 和 ， 而 当 x ”是 连续 值 时 ， 这 个 期 望 对 应 的 是 积 
Te 
无 论 状 态 是 连续 的 还 是 离散 的 ， 所 有 的 马尔 可 夫 链 方法 都 包括 重复 、 随 
机 地 更 新 直到 最 后 状态 开始 从 均衡 分 布 中 采样 。 运 行 乌 尔 可 夫 链 直到 筷 
达到 均 街 分 布 的 过 程 通 章 伏 称 为 马尔 可 夫 链 的 磨合 (Burning-in ) 过 
程 。 在 马尔 可 夫 链 达到 均衡 分 布 之 后 ， 我 们 可 以 从 均衡 分 布 中 抽取 一 个 
无 限 多 数量 的 样本 序列 。 这 些 样本 服从 同一 分 布 ， 但 是 两 个 连续 的 样本 
之 国会 高 度 相 关 。 所 以 一 个 有 限 的 序列 无 法 完全 表达 均衡 分 布 。 一 种 解 
决 这 个 问题 的 方法 是 每 隔 n 个 样本 返回 一 个 样本 ， 从 而 使 得 我 们 对 于 均 

衡 分 布 的 统计 量 的 估计 不 会 被 MCMC 方 法 的 样本 之 间 的 相关 性 所 干扰 。 

所 以 瑟 尔 可 夫 链 的 计算 代价 很 蜗 ， 主 要 源 于 达到 均衡 分 布 前 需要 诬 合 的 
时 间 以 及 在 达到 均衡 分 布 之 后 从 一 个 样本 转移 到 男 一 个 足够 无 天 的 样本 
所 需要 的 时 间 。 如 末 我 们 想 要 得 到 完全 独立 的 样本 ， 那 么 可 以 同时 并 行 
地 运行 多 个 马尔 可 夫 链 。 这 种 方法 使 用 了 额外 的 并 行 计 算 来 减少 时 延 。 

使 用 一 条 马尔 可 夫 链 来 生成 所 有 样本 的 全 上 略 和 【使 用 多 条 马尔 可 夫 链 ) 

每 条 马尔 可 夫 链 只 产生 一 个 样本 的 嫁 略 是 两 种 极 闫 。 深 度 学 习 的 从 业者 
们 通 第 选取 的 马尔 可 夫 链 的 数目 和 小 批量 中 的 样本 数 相 近 ， 然 后 从 这 些 
固定 的 马尔 可 夫 链 集合 中 抽取 所 需要 的 样本 。 马 尔 可 夫 链 的 数目 通 弟 选 


为 100。 


另 一 个 难点 是 我 们 无 法 预先 知道 马尔 可 夫 链 需要 运行 多 少 步 才能 到 达 均 
衡 分 布 。 这 上 段 时 间 通 党 被 称 为 混合 时 间 (Mixing Time) 。 检 测 一 个 马 
尔 可 夫 链 是 售 达 到 平衡 是 很 困难 的 。 我 们 并 没有 足够 完善 的 理论 来 解 诀 
这 个 问题 。 理 论 只 能 保证 马尔 可 夫 链 会 最 终 收 敛 ， 但 是 无 法 保证 其 他 。 
QO RTI A 作用 在 概率 癌 量 v 上 的 角度 来 分 析 马 尔 可 夫 链 ， 那 么 
可 以 发 现 当 4A 上 除了 单个 1 以 外 的 特征 值 都 趋 于 0 时 ， 马 尔 可 夫 链 寓 合 成 
功 〈 收 敛 到 了 均衡 分 布 ) 。 这 也 意味 看 窍 阵 A 的 第 二 大 特征 值 决定 了 马 
尔 可 夫 链 的 混合 时 间 。 然 而 ， 在 实践 中 ， 我 们 通常 不 能 真 的 将 马尔 可 夫 
链表 示 成 矩阵 的 形式 。 我 们 的 概率 模型 所 能 够 达到 的 状态 是 变量 数 的 指 
数 级 别 ， 所 以 表达 v, A 或 者 A 的 特征 值 是 不 现实 的 。 由 于 以 上 在 内 
的 诸多 阻碍 ， 我 们 通常 无 法 知道 蕊 尔 可 夫 链 是 人 耕 已 经 混合 成 功 。 作 为 巷 
代 ， 我 们 只 能 运行 一 定量 时 间 的 蕊 尔 可 夫 链 直到 粗略 估计 这 上段 时 间 是 中 
够 的 ， 然 后 使 用 启发 式 的 方法 来 判断 马尔 可 夫 链 是 否 混 合成 功 。 这 些 启 
用 性 的 算法 包括 手动 检查 样本 或 者 衡量 前 后 样本 之 间 的 相关 性 。 


17.4 Gibbs% 1% 


A ay AER ZS JAE AIRRA E x -x T(x’ | x) 从 
一 个 分 布 q( x ) 中 采样 ， 然 而 我 们 还 没有 介绍 过 如 何 确定 q( x ) 是 否 是 一 
个 有 效 的 分 布 。 本 书 中 将 会 拉 述 两 种 基本 的 方法 。 第 一 种 方法 是 从 已 经 
学 习 到 的 分 布 p vi 中 推导 出 T， 下 文摘 述 了 如 何 从 基于 能 量 的 模型 中 
采样 。 第 二 种 方法 是 直接 用 参数 描述 T， 然 后 学 习 这 些 参数 ， 其 平稳 分 
布 隐 式 地 定义 了 我 们 所 感 兴趣 的 模型 p ,jy 。 我 们 将 在 第 20.12 节 和 第 
20.13 节 中 讨论 第 二 种 方法 的 例子 。 


在 深 上 谋 学 习 中 ， 我 们 通常 使 用 马尔 可 夫 链 从 定义 为 基于 能 量 的 模型 的 分 
布 p model ( 入 ) 中 采样 。 在 这 种 情况 下 ， 我 们 和 希望 马尔 可 夫 链 的 q( 入 ) 分 布 
WLP mode (X )。 为 了 得 到 所 期 望 的 qd(x ) 分 布 ， 我 们 必须 选取 合适 的 工 
X“ IXJ 

Gibbs ff (Gibbs Sampling) Æ -PMS IM LA AIIE. ERY 
造 一 个 从 p noda ( X ) 中 采样 的 马尔 可 夫 链 ， 其 中 在 基于 能 量 的 模型 中 从 
T(x ”发 ) 采 样 是 通过 选择 一 个 变量 xi ， 然 后 从 p mode: PIZAR FESH 


HIG (定义 了 基于 能 量 的 模型 结构 〉 中 邻接 点 的 条 件 分 布 中 末 样 。 只 
要 一 些 变 量 在 纷 定 相 邻 变 量 时 是 条 件 独 立 的 ， 那 么 这 些 变 量 就 可 以 饭 同 
时 采样 。 正 如 在 第 16.7.1 节 中 看 到 的 RBM 示 例 一 样 ，RBM 中 所 有 的 隐藏 
单元 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 可 见 单 元 的 条 件 下 它们 相互 条 件 
独立 。 同 样 地 ， 所 有 的 可 见 单元 也 可 以 被 同时 采样 ， 因 为 在 给 定 所 有 隐 
藏 单 元 的 情况 下 它们 相互 条 件 独立 。 以 这 种 方式 同时 更 新 许多 变量 的 
Gibbs 采 样 通 钊 航 称 为 块 训 布 斯 采样 (block Gibbs Sampling) 。 


设计 从 p moder ， 中 采样 的 马尔 可 夫 链 还 存在 其 他 备 选 方法 。 比 如 说 ， 
Metropolis-Hastings 算 法 在 其 他 领域 中 广泛 使 用 。 不 过 在 深度 学 习 的 无 
加 模型 中 ， 我 们 主要 使 用 Gibbs 采 样 ， 很 少 使 用 其 他 方法 。 改 进 采 样 技 
巧 也 是 一 个 潜在 的 研究 热点。 


17.5 个 同 的 峰值 之 间 的 混合 挑 成 


使 用 MCMC 方 法 的 主要 难点 在 于 马尔 可 夫 链 的 混合 Mixing) iH) aN 
理想 。 在 理想 情况 下 ， 从 设计 好 的 号 尔 可 夫 链 中 米 出 的 连续 样本 之 则 是 
完全 独立 的 ， 而 且 在 x 空间 中 ， 马 尔 可 夫 链 会 按 概 率 大 小 访问 许多 不 同 
区 域 。 


然而 ，MCMC 方 法 采 出 的 样本 可 能 会 具有 很 强 的 相关 性 ， 尤 其 是 在 高 维 
的 情况 下， 我 们 把 这 种 现象 称 为 慢 混 合 甚至 混合 失败 。 具 有 绥 慢 混合 的 
MCMC 方 法 可 以 被 视 为 对 能 量 孙 数 无 意 地 执行 类 似 于 市 噪声 的 梯度 下 降 
的 操作 ， 或 者 说 等 价 于 相对 于 链 的 状态 (被 采样 的 随机 变量 依据 概率 
进行 噪声 息 坡 。 在 马尔 可 夫 链 的 状态 空间 中 )〉 从 x OD 到 x 该 链 倾 
向 于 选取 很 小 的 步 长 ， 其 中 能 量 E( x © ) 通 常 低 于 或 者 近似 等 于 能 量 E( x 
( 了)， 倾 向 于 向 较 低 能 量 的 区 域 移动 。 当 从 可 能 性 较 小 的 状态 《 比 来 自 
p(x JH SR ALE AST E ren I ee) 开始 时 ， 链 趋同 于 逐渐 减少 状态 的 能 
量 ， 并 且 仅 仅 偶尔 移动 到 万 一 个 峰值 。 一 旦 该 链 已 经 找到 低能 量 的 区 域 
(例如 ， 如 来 变量 是 图 像 中 的 像 系 ， 则 低能 量 的 区 域 可 以 是 同一 对 象 所 
对 应 图 像 的 一 个 连通 的 法 形 )， 我 们 称 之 为 峰值 ， 链 将 倾 同 于 围绕 看 这 
(MRED RE GSR PHT SURE) 。 它 时 不 时 会 走出 该 峰值 ， 但 是 
结 末 通 第 会 返回 该 峰值 或 者 (如 来 找到 一 条 离开 的 路 线 ) 移 同 万 一 个 峰 
值 。 问 题 生 对 于 很 多 有 趣 的 分 布 来 说 成 功 地 离开 路 线 很 少 ， 所 以 马尔 可 
天 链 将 在 一 个 峰 信 附近 抽取 远 超 过 珊 求 的 伞 本 。 


当 我 们 考虑 Gibbs 采 样 算 法 〈 见 第 17.4 节 ) 时 ， 这 种 现象 格外 明显 。 在 这 
种 情况 下 ， 我 们 考虑 在 一 定 步 数 内 从 一 个 峰值 移动 到 一 个 临近 峰值 的 概 
率 。 决 定 这 个 概率 的 是 两 个 峰值 之 间 的 “能 量 障 但 ”的 形状 。 隔 着 一 个 巨 
大 “能 量 障 碍 ”( 低 概率 的 区 域 》 的 两 个 峰值 之 间 的 转移 概率 是 〈 随 着 能 
量 障碍 的 高 度 ) 指数 下 降 的 ， 如 图 17.1 所 示 。 当 目标 分 布 有 多 个 高 概率 
峰值 并 且 被 低 概率 区 域 所 分 制 ， 尤 其 当 Gibbs 采 样 的 每 一 步 都 只 是 更 新 

变量 的 一 小 部 分 ， 而 这 一 小 部 分 变量 又 严重 依赖 其 他 的 变量 时 ， 吏 会 产 


生 问 题 。 








图 17.1 对 于 三 种 分 布 使 用 Gibbs 采 样 所 产生 的 路 径 ， 所 有 的 分 布 马尔 可 夫 链 初始 值 都 设 为 峰 
{eo E) 一 个 市 有 两 个 独立 变量 的 多 维 正 态 分 布 。 由 于 变量 之 间 是 相互 独立 的 ，Gibbs 采 样 泥 
FR. CH) 变量 之 间 存 在 高 度 相关 性 的 一 个 多 维 正 态 分 布 。 变 量 之 间 的 相关 性 使 得 马尔 
可 夫 链 很 难 混 合 。 因 为 每 一 个 变量 的 更 新 需要 相对 其 他 变量 求 条 件 分 布 ， 相 关 性 减 慢 了 马尔 可 
夫 链 远离 初始 氮 的 速度 。《 右 ) 峰值 之 间 间 距 很 大 且 不 在 轴 上 对 齐 的 宴 合 高 斯 分 布 。Gibbs 采 样 
混合 得 很 慢 ， 因 为 每 次 更 新 仅仅 一 个 变量 很 难 路 越 不 同 的 峰值 


举 一 个 简单 的 例子 ， 考 虑 两 个 变量 a、b 基 于 能 量 的 模型 ， 这 两 个 变量 都 
是 二 值 的 ， 取 值 十 1 或 者 -1。 如 果 对 某 个 较 大 的 正 数 w，E(a,b) 王 -wab， 

那么 这 个 模型 传达 了 一 个 强烈 的 信息 ，a 和 b 有 相同 的 符号 。 当 a 王 1 时 用 
Gibbs 采 样 更 新 b。 给 定 b 时 的 条 件 分 布 满 足 ptb=1 | a=1)=o(w). Ww 
的 值 很 大 ，sigmoid 函 数 趋 近 于 饱和 ， 那 么 b 也 取 到 1 的 概率 趋 近 于 1。 同 
理 ， 如 果 a 二 -1， 那 么 b 取 到 -1 的 概 深 也 趋 于 1。 根 据 模 型 p ,jw (ab) 
个 变量 取 一 样 的 符号 的 概率 几乎 相等 。 根据 p mode! (alb)， 两 个 变量 应 该 
有 相同 的 符号 。 这 也 意味 着 Gibbs 采 样 很 难 会 改变 这 些 变量 的 符号 。 


在 更 实际 的 问题 中 ， 这 种 挑 成 更 加 艰巨 。 因 为 在 实际 问题 中 我 们 不 能 仅 
仅 关 注 在 两 个 峰值 之 间 的 转移 ， 更 要 关注 在 多 个 峰 信 之 间 的 转移 。 如 末 
由 于 峰值 之 则 混合 困难 ， 而 叶 致 东 几 个 这 样 的 转移 难以 完成 ， 那 么 得 到 
一 些 可 徘 的 者 盖 大 部 分 峰值 的 样本 集合 的 计算 代价 是 很 蜗 的 ， 同 时 号 尔 
可 夫 链 收 全 到 它 的 平稳 分 布 的 过 程 也 会 非常 缓慢 。 








HED AMT EK HS re PE RS se EY ZL oP ER TRI CTR C 中 的 变量 ， 
XA HA I We ee FY DAR. ADEE SOR ARR ZAR 
F, MIXE ZEAE ACE HY EE ATS I EO Tk ee ME DA BEY © VAR 2 JER 
FY AR PY BE Bie I) CHE LE RI eR RIK PS Td ell, BAR EE E REY I] 


E 。 


在 定义 了 一 个 联合 分 布 p moda (X> h WSCA, RAJA 
ACF tt Mp model (x|h )AUp model (h|x ) 中 采样 来 达到 抽 x 的 目的 。 从 快 
速 混合 的 角度 上 说 ， 我 们 更 希望 p modei (| x YATRA. ZA, A 
习 一 个 下 的 有 用 表示 的 角度 上 考 碟 ， 我 们 还 是 希望 产能 够 包 侣 x 的 足够 
言 思 ， 从 而 能 够 较 完 整地 重 构 它 ， 这 意味 六 和 x 要 有 非常 高 的 互信 息 。 
这 两 个 目标 是 相互 矛盾 的 。 我 们 经 党 学 习 到 能 够 将 x 精确 地 编码 为 h 的 
生成 模型 ， 但 是 无 法 很 好 混合 。 这 种 情况 在 玻 尔 兹 曼 机 中 经 第 出 现 ， 一 
个 玻 尔 兹 曼 机 学 到 的 分 布 越 尖 钢 ， 访 分布 的 与 尔 可 夫 链 采样 越 难 混 合 得 
好 。 这 个 问题 在 图 17.2 中 有 所 插 述 。 
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图 17.2 ”深度 概率 模型 中 一 个 混合 缓慢 问题 的 例证 。 每 张 图 都 是 按照 从 左 到 在 从 上 到 下 的 顺序 
Hy. CAE) Gibbs 采 样 从 MNIST 数 据 集 训练 成 的 深度 玻 尔 效 曼 机 中 采 出 的 连续 样本 。 这 些 连 续 的 
样本 之 间 非 常 相 似 。 由 于 Gibbs 采 样 作 用 于 一 个 深度 图 模型 ， 相 似 度 更 多 地 是 基于 语义 而 非 原 始 
视觉 特征 。 但 是 对 于 言 布 斯 链 来 说 从 分 布 的 一 个 峰值 转移 到 另 一 个 仍然 是 很 困难 的 ， 比 如 说 改 
变数 字 。 CA) 从 生成 式 对 抗 网 络 中 抽出 的 连续 原始 样本 。 因 为 原始 采样 生成 的 样本 之 间 互 相 
独立 ， 所 以 不 存在 混合 问题 


当 感 兴趣 的 分 布 对 于 每 个 类 具有 单独 的 流 形 结构 时 ， 所 有 这 些 问 题 部 使 


MCMC 方 法 变 得 不 那么 有 用 : 分 布 集中 在 许多 峰值 周围 ， 并 且 这 些 峰 值 
由 大 量 珊 能 量 区 域 分 割 。 我 们 在 许多 分 类 问题 中 追 到 的 是 这 种 类 型 的 分 








布 ， 由 于 峰值 之 间 混 合 缓慢 ， 它 将 使 得 MCMC 方 法 非常 缓慢 地 收敛 。 
17.5.1 不 同 峰 值 之 间 通 过 回 火 来 混合 


当 一 个 分 布 有 一 些 陡峭 的 峰 并 且 被 低 概 率 区 域 包围 时 ， 很 难 在 分 布 的 不 
同 峰 值 之 间 混 合 。 一 些 加 速 混合 的 方法 是 基于 构造 一 个 概率 分 布 瞧 代目 
标 分 布 ， 这 个 概率 分 布 的 峰值 没有 那么 品 ， 峰 值 周围 的 低谷 也 没有 那么 
低 。 基 于 能 量 的 模型 为 这 个 想法 提供 一 种 简单 的 做 法 。 目 前 为 止 ， 我 们 
一 二 将 基于 能 量 的 模型 插 述 为 定义 一 个 概率 分 布 : 


p(x) x exp(—E(2z)) A) 


Fes PE ee AY Be AS a DAL YS JI SY E EE SR BE BEE SB BOR 
加 强 : 


pe(x) x exp(—GE(z)) (17.26) 


B 参 数 可 以 被 理解 为 温度  (temperature) 的 倒数 ， 反 映 了 基于 能 量 的 模 
型 的 统计 物理 学 起 源 。 当 温度 趋 近 于 0 时 ，B 趋 近 于 无 穷 大 ， 此 时 的 基于 
能 量 的 模型 是 确定 性 的 。 当 温度 趋 近 于 无 穷 大 时 ，B 趋 近 于 0， 基 于 能 量 
的 模型 (对 离散 的 x ) 成 了 均匀 分 布 。 


通 第 情况 下 ， 在 8 三 1 时 训练 一 个 模型 。 但 我 们 也 可 以 利用 其 他 温度 ， 尤 
其 是 B<1 的 情况 。 回 火 (tempering) EJN — FOB ARI, Cae Mp 
二 1 模型 中 采样 来 实现 在 pj 的 不 同 峰值 之 间 快 速 泥 合 。 


基于 回 火 转移 (tempered transition) (Neal, 1994) 的 马尔 可 夫 链 临时 
M tea in. PE AN 2 Ao AAR EEE JB TR EEL AEE PA a RE ME A dn PE 
MPRE © OEE TS $8 H He Es AY PR BM H” 

(Salakhutdinov, 2010) 。 画 一 种 方法 是 利用 并 行 回 火 (parallel 
tempering) (Iba, 2001) . KH SRA) AGES IT BU IFE J Ir dE 

WAERN. BRENT AR AS, FAK PREIS, BY 
温度 为 1 时 ， 采 出 了 精 硝 的 样本 。 转 移 算 子 包 括 两 个 温度 之 间 的 随机 路 

转 ， 所 以 一 个 高 逻 度 状态 分 布 槽 中 的 样本 有 足够 大 的 概率 跳 苇 到 低 远 度 
分 布 的 槽 中 。 这 个 方法 也 被 应 用 到 了 RBM 中 (Desjardins et al. , 2010; 

Cho et al. , 2010a) 。 尽 宫 回 炙 这 种 方法 前 景 可 期 ， 现 今 它 仍然 无 法 让 


我 们 在 采样 复杂 的 基于 能 量 的 模型 中 更 进一步 。 一 个 可 能 的 原因 是 在 临 
界 温度 (critical temperatures) 时 温度 转移 算 子 必须 设置 得 非常 慢 “〈 因 
为 温度 需要 逐渐 下 降 ) 来 确保 回 火 的 有 效 性 。 


17.5.2 ”深度 也 许 会 有 助 于 混合 


当 我 们 从 潜 变 量 模型 p( h ,x ) 中 米 样 时 ， 我 们 可 以 发 现 如 果 p( h|x ) 将 x 
编码 得 非常 好 ， 那 么 从 p(Cx | h ) 中 采样 时 ， 并 不 会 太 大 地 改变 x, WA 
混合 结果 会 很 糟 灶 。 解 决 这 个 问题 的 一 种 方法 是 使 得 h 成 为 一 种 将 x 编 
APA RATE, MATTE SORA CECE h 空间 中 更 容易 混合 。 在 许 
多 表示 学 习 算 法 如 目 编 码 硕 和 RBM 中 ， 不 的 边缘 分 布 相 比 于 x 上 的 原 
始 数据 分 布 ， 通 间 表 现 为 更 加 均匀 、 更 趋 近 于 单 峰 值 。 或 许可 以 说 ， 这 
是 因为 利用 了 所 有 可 用 的 表示 空间 并 尽量 减 小 午 构 误 才 。 因 为 当 训 练 集 
上 的 不 同样 本 之 间 在 h 空间 能 够 被 非常 容易 地 区 分 时 ， 我 们 也 会 很 容易 
地 最 小 化 重 构 误 差 。Bengio etal. (2013a) 观 罕 到 这 样 的 现象 ， 堆 告 越 
深 的 正则 化 自 编码 器 或 者 RBM， 顶 端 h 空间 的 边缘 分 布 越 趋向 于 均 勾 
和 和 发散， 而 且 不 同 峰值 (比如 说 实验 中 的 类 别 ) 所 对 应 区 域 之 间 的 间距 
也 会 越 小 。 在 高 层 空间 中 训练 RBM 会 使 得 Gibbs 采 样 在 峰值 间 混 舍得 

快 。 然 而 ， 如 何 利用 这 种 观察 到 的 现象 来 辅助 训练 深度 生成 模型 或 者 从 
中 采样 仍然 有 竺 探索 。 


FRAP TEE MEA RRE RS RAIA TA A, a te 
最 好 的 可 用 工具 。 事 实 上 ， 在 过 到 难以 处 理 的 无 同 模 型 中 的 配 分 函数 
时 ， 聚 特 卡 罗 方 法 仍然 古 最 主要 的 工具 ， 这 将 在 下 一 半 详 细 曾 述 。 








(1) 通常 我 们 会 倾向 于 计算 方差 的 无 偏 售 计 ， 它 由 偏差 的 平方 和 除 以 a-1 而 非得 到 。 
A Z, 米 
第 18 半 ”直面 配 分 函数 


在 第 16.2.2 节 中 ， 我 们 看 到 许多 概率 模型 (通常 是 无 向 图 模型 由 一 个 
未 归 一 化 的 概率 分 布 方 (XX, A) 定义 。 我 们 必须 通过 除 以 配 分 函数 Z( 9 ) 
来 归 一 化 方 ， 以 获得 一 个 有 效 的 概率 分 布 : 


p(x;0) = zg?) (18.1) 
配 分 函数 是 未 归 一 化 概率 所 有 状态 的 积分 〈 对 于 连续 变量 ) RRA 
于 离散 变量 ) ， 


| eda (18.2) 
或 者 
N p(z) (18.3) 


对 于 很 多 有 趣 的 模型 而 言 ， 以 上 积分 或 求 和 难以 计算 。 


正如 我 们 将 在 第 20 革 看 到 的 ， 有 些 深度 学 习 模 型 被 设计 成 共有 一 个 易于 
处 理 的 归 一 化 常数 ， 或 被 设计 成 能 够 在 不 涉及 计算 p(x ) 的 情况 下 使 
用 。 然 而 ， 其 他 一 些 模型 会 直接 面 对 难 以 计算 的 配 分 函数 的 挑战 。 在 本 
革 中 ， 我 们 会 介绍 用 于 训练 和 评估 那些 其 有 难以 处 理 的 配 分 函数 的 模型 
的 技术 。 


18.1 XY BAA ti PE 


通过 最 大 似 然 学 习 无 问 模 型 特别 困难 的 原因 在 于 配 分 函数 依赖 于 参数 。 
对 数 似 然 相对 于 参数 的 梯度 具有 一 项 对 应 于 配 分 函数 的 梯度 : 


Ve log p(x; 0) = Velogp(x;0)— VelogZ(0) (18.4) 


MeN Las SS PSE Se AMIE Cpositive phase) 和 负 相 = (negative 
phase) 的 分 解 。 


对 于 大 多 数 感 兴趣 的 无 癌 模 型 而 言 ， 负 相 古 困难 的 。 没 有 海 变 量 或 洲 变 
量 之 间 很 少 相 互 作用 的 模型 通常 会 有 一 个 易于 计算 的 正 相 。RBM 的 隐 
着 单元 在 给 定 可 见 单 元 的 情况 下 彼此 条 件 独 立 ， 征 一 个 典型 的 具有 简单 
正 相 和 困难 负 相 的 模型 。 正 相 计 算 困 难 ， 洪 变量 之 间 上 其 有 复 洒 相互 作用 
的 情况 将 主要 在 第 19 重 中 讨论 。 本 和 章 主 要 探讨 负 相 计 算 中 的 难点 。 


让 我 们 进一步 分 析 log Z 的 株 度 : 





VologZ (18.5) 
Vez 
= (18.6) 
— Vë dv x P(X) 
人 一 (18.7) 
>y VeD(X) 
= 二 (18.8) 
对 于 保证 所 有 的 x ”部 有 Pp (x ) 二 0 的 模型 ， 我 们 可 以 用 
exp(log p(x) ) p(x): 
2 x Vo exp(log p(x)) (18.9) 
Z 
es, ates at L (18.10) 
= Pome ve ares (18.11) 
= X P(x) Vo log p(x) (18.12) 
= Exnp(x) Vo log p(x) (18.13) 


上 述 推 寻 对 离散 的 x 进行 求 和 ， 对 连续 的 x 进行 积分 也 可 以 得 到 类 似 结 
玉 。 在 连续 版 本 的 推导 中 ， 使 用 在 积分 符 写 内 取 和 做 分 的 羔 布 尼 兹 法 则 可 
以 得 到 等 式 


Vo | 5coua = J Voda (18.14) 


该 等 式 只 适用 于 方 和 Vg 方 (X) 上 的 一 些 特定 规范 条 件 。 在 测度 论 术 语 
由， 这 些 条 件 是 : CL) 对 每 一 个 9 而 言 ， 未 归 一 化 分 布 方 必须 是 x 的 
勒 贝 格 可 积 函数 。 (2) 对 于 所 有 的 9 RULER x. HEV 9 p(x) 必 
须 存在 。 (3) 对 于 所 有 的 9 和 几乎 所 有 的 x ， 必 须 存在 一 个 可 积 函数 
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大 多 数 感 兴趣 的 机 大 学 习 模型 都 具有 这 些 性 质 。 


等 式 


= 


Vo log Z = Ex~p(x) Vo log p(x) (18.15) 
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蒙特 卡 罗 方 法 为 学 习 无 向 模型 提供 了 直观 的 框架 ， 我 们 能 够 在 其 中 考虑 
正 相 和 负 相 。 在 正 相 中 ， 我 们 增 大 从 数据 中 采样 得 到 的 ]og D(x) 。 在 
负 相 中 ， 我 们 通过 降低 从 模型 分 布 中 采样 的 Jog 方 (X) ”来 降低 配 分 函 
数 。 


在 深度 学 习 文 献 中 ， 经 常会 看 到 用 能 量 函 数 R 16.7) ) 来 参数 化 
log p 。 在 这 种 情况 下 ， 正 相 可 以 解释 为 压低 训练 样本 的 能 量 ， 负 相 
可 以 解释 为 提高 模型 抽出 的 样本 的 能 量 ， 如 图 18.1 所 示 。 


18.2 ”随机 最 大 似 然 和 对 比 散 上 度 


实现 式 (18.15) 的 一 个 朴素 方法 是 ， 每 次 需要 计算 梯度 时 ， 麻 合 随机 

初始 化 的 一 组 马尔 可 夫 链 。 当 使 用 随机 梯度 下 降 进 行 学 习 时 ， 这 意味 着 
马尔 可 夫 链 必须 在 每 次 梯度 步骤 中 麻 合 。 这 种 方法 引导 下 的 训练 过 程 如 
算法 18.1 所 示 。 内 循环 中 磨合 马尔 可 夫 链 的 计算 代价 过 高 ， 导 致 这 个 过 
程 在 实际 中 是 不 可 行 的 ， 但 是 这 个 过 程 是 其 他 更 加 实际 的 近似 算法 的 基 
Tio 


我 们 可 以 将 最 大 化 似 然 的 MCMC 方 法 视 为 在 两 种 力 之 间 平 衡 ， 一 种 力 拉 
局 数据 出 现时 的 模型 分 布 ， 一 种 拉 低 模型 淋 桩 出 现时 的 模型 分 布 。 图 
18.1 展 示 了 这 个 过 程 。 这 两 种 力 分 别 对 应 最 大 化 loOg p ”和 最 小 化 log 
Z。 对 于 负 相 会 有 一 些 近 似 方法 。 这 些 近 似 都 可 以 被 理解 为 使 负 相 更 容 
易 计 算 ， 但 是 也 可 能 将 其 推 回 错误 的 位 置 。 


算法 18.1 一 种 朴素 的 MCMC 算 法 ， 使 用 梯度 上 升 最 大 化 具有 难以 计算 本 
分 函数 的 对 数 似 然 。 
BIKE 为 一 个 小 正 数 。 


设 吉 布 斯 步 数 kK 大 到 足以 允许 磨合 。 在 小 图 像 集 上 训练 一 个 RBM 大 致 
设 为 100。 


while 不 收 全 do 
从 训练 集中 采 包 含 m 个 样本 {x 吓 ，...，x 中} 的 小 批量 。 
| m (i). 
Boy p oj 
= aa i Vo lo g p(X “7 ). 
anual D 萤 pepi 为 随机 值 〈 例 如 ， 从 均匀 或 正 
态 分 布 中 采 ， 或 大 致 与 模型 边 缘分 布匹 配 的 分 布 ) 。 


for i=1 to k do 
for j=1 to m do 
XJ) — gibbs_update(x?). 
end for 
end for 
g- g- +5 Vo log p(x"; 8). 
0 — 0 + eg. 


end while 








图 18.1 算法 18.1 角 度 的 “ 正 相 ”和 “ 负 相 。 〈 左 〉 在 正 相 中 ， 我 们 从 数据 分 布 中 采样 ， 然 后 推 高 
它们 未 归 一 化 的 概 京 。 这 童 味 看 概率 越 融 的 数据 点 ， 未 归 一 化 的 概率 被 推 高 得 越 多 。 ( 右 ) 在 
负 相 中 ， 我 们 从 模型 分 布 中 采样 ， 然 后 压低 它们 未 归 一 化 的 概率 。 这 与 正 相 的 倾 问 相反 ， 给 未 
归 一 化 的 概率 处 处 添加 了 一 个 大 常数 。 当 数据 分 布 和 模型 分 布 相等 时 ， 正 相 推 蜗 数 据点 和 人 负 相 
压低 数据 点 的 机 会 相等 。 此 时 ， 不 再 有 任何 的 标 度 期 鹿 上 说 ) ， 训 练 也 必须 停止 


因为 负 相 涉及 从 模型 分 布 中 抽样 ， 所 以 我 们 可 以 认为 它 在 找 模 型 信任 度 
很 高 的 点 。 因 为 负 相 减少 了 这 些 点 的 概率 ， 它 们 一 般 被 认为 代表 了 模型 
不 正确 的 信念 。 在 文献 中 ， 它 们 经 利和 被 称 为 " 纪 沉 ?或 “ 约 想 粒子 ”。 事 实 
上 ， 负 相 已 经 被 作为 人 关 和 其 他 动物 做 梦 的 一 种 可 能 解释 (Crick and 
Mitchison, 1983) 。 这 个 想法 是 说 ， 大 脑 维持 着 世界 的 概率 模型 ， 并 日 
在 醒 着 经 历 真 实事 件 时 会 遵循 |Og D HS BE 在 睡觉 时 会 遵循 |Og D 
HN ep Ee) log Z， 其 经 历 的 样本 采样 目 当前 的 模型 。 这 个 视角 解释 
了 有 具有 正 相 和 负 相 的 大 多 数 算法 ， 但 是 它 还 没有 被 神经 科学 实验 证 明 是 
正确 的 。 在 机 右 学 习 模 型 中 ， 通 党 有 必要 同时 使 用 正 相 和 人 猴 相 ， 而 不 是 
按 不 同时 间 阶 段 分 为 清醒 和 REM 睡 眠 时 期 。 正 如 我 们 将 在 第 19.5 节 中 看 
到 的 ， 一 些 其 他 机 右 学 习 鼻 法 出 于 其 他 原因 从 模型 分 布 中 采样 ， 这 些 算 
法 也 能 提供 睡 党 做 梦 的 解释 。 


这 样 理解 学 习 正 相 和 负 相 的 作用 之 后 ， 我 们 设计 了 一 个 比 算法 18.1 计 算 
代价 更 低 的 替代 算法 。 简 单 的 MCMC 算 法 的 计算 成 本 主要 来 自 每 一 步 的 
随机 初始 化 磨合 马尔 可 夫 链 。 一 个 目 然 的 解决 方法 是 初始 化 马尔 可 夫 链 
为 一 个 非常 接近 模型 分 布 的 分 布 ， 从 而 大 大 减少 磨合 步 又 。 








算法 18.2 对 比 秘 度 算法 ， 使 用 杨 度 上 升 作 为 优化 过 程 。 





UPKE 为 一 个 小 正 数 。 


设 襄 布 斯 步 数 k 大 到 足以 让 从 p data 初始 化 并 从 p Ox; 6 ) 采样 的 马尔 
可 夫 链 混合 。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 为 1-20。 


while 不 收敛 do 
从 训练 集中 采 包 含 m 个 样本 {x 站，...，x 四} 的 小 批量 。 
g— +0" Vo log p(x; 8). 
for i=1 to m do 
x) x), 
end for 
for i=1 tok do 
for j=1 to m do 
XV) — gibbs_update(x?). 
end for 
end for 
cm ~~ (1 : 
E at ~ ha 一 | Ve log D(x: 0). 
0 — 0 + eg. 


end while 





对 比 散 度 (CD， 或 者 是 具有 Kk 个 Gibbs 步 又 的 CD-k) 算法 在 每 个 步骤 中 


WUC SR A RE AA H BUD PEA (Hinton, 2000, 

2010) ， 如 算法 18.2 所 示 。 从 数据 分 布 中 获取 样本 是 计算 代价 最 小 的 ， 
因为 它们 已 经 在 数据 集中 了 。 和 初始 时 ， 数 据 分 布 并 不 接近 柑 型 分 布 ， 
此 人 负 相 不 是 非常 准确 。 焉 运 的 是 ， 正 相 仍 然 可 以 准确 地 增加 数据 的 模型 
概率 。 进 行 正 相 阶 段 一 段 时 间 之 后 ， 模 型 分 布 会 更 接近 于 数据 分 布 ， 并 
日 人 负 相 开始 变 得 准确 。 


当然 ，CD 仍 然 是 真实 负 相 的 一 个 近似 。CD 未 能 定性 地 实现 真实 负 相 的 
主要 原因 是 ， 它 不 能 抑制 远离 真实 训练 样本 的 蜗 概 紊 区域。 这些 区 域 在 
檬 型 上 具有 噩 概 康 ,但 是 在 数据 生成 区 域 上 其 有 低 概 康 ， 被 称 为 虚假 模 
AX (spurious modes) 。 图 18.2 解 释 了 这 种 现象 发 生 的 原因 。 基 本 上 ， 
除非 k 非 常 大 ， 模 型 分 布 中 远离 数据 分 布 的 峰值 不 会 被 使 用 训练 数据 初 
始 化 的 马尔 可 夫 链 访问 到 。 


Carreira-Perpifian and Hinton (2005) 实验 上 证 明 CD 佑 计 偏 问 于 RBM 和 
完全 可 见 的 玻 尔 北 受 机 ， 因 为 它 会 收敛 到 与 最 大 似 然 佑 计 不 同 的 点 。 他 
们 认为 ， 由 于 侦 差 较 小 ，CD 可 以 作为 一 种 计算 代价 低 的 方式 来 初始 化 
模型 ， 之 后 可 以 通过 计算 代价 高 的 MCMC 方 法 进行 精 调 。Bengio and 
Delalleau (2009) 表明 ，CD 可 以 被 理解 为 去 掉 了 正确 MCMC 梯 度 更 新 
中 的 最 小 项 ， 这 解释 了 偶 关 的 由 来 。 


在 训练 诸如 RBM 的 浅 层 网 络 时 CD 是 很 有 用 的 。 反 过 来 ， 这 些 可 以 堆 登 
起 来 初始 化 更 深 的 模型 ， 如 DBN 或 DBM。 但 是 CD 并 不 直接 有 助 于 训练 
和 更深 的 模型 。 这 是 因为 在 给 定 可 见 单 元 样本 的 情况 下 ， 很 难 获 得 隐 羧 单 
元 的 样本 。 由 于 隐 羧 单元 不 包括 在 数据 中 ， 所 以 使 用 训练 点 初始 化 无 法 
解决 这 个 问题 。 即 使 我 们 使 用 数据 初始 化 可 见 单 元 ， 我 们 仍然 需要 麻 合 
在 给 定 这 些 可 见 单元 的 隐 首 单元 条 件 分 布 上 采样 的 马尔 可 夫 链 。 





X 


图 18.2 ”一 个 虚假 模 态 。 说 明 对 比 散 度 《〈 算 法 18.2) 的 负 相 为 何 无 法 抑制 虚假 模 态 的 例子 。 一 个 
虚假 模 态 指 的 是 一 个 在 模型 分 布 中 出 现 数据 分 布 中 却 不 存在 的 模式 。 由 于 对 比 黎 度 从 数据 点 中 
初始 化 它 的 马尔 可 夫 链 然后 仅仅 运行 了 几 步 马尔 可 夫 链 ， 不 太 可 能 到 达 模 型 中 离 数 据点 较 远 的 
模式 。 这 意味 看 从 模型 中 采样 时 ， 我 们 有 时 候 会 得 到 一 些 与 数据 并 不 相似 的 样本 。 这 也 意味 看 
由 于 在 这 些 模式 上 浪费 了 一 些 概 紊 质量 ， 模 型 很 难 把 较 融 的 概率 质量 集中 于 正确 的 模式 上 。 出 
于 可 视 化 的 目的 ， 这 个 图 使 用 了 荣 种 程度 上 更 加 人 简单 的 距离 的 概念 一 一 在 IR 的 数 轴 上 虚假 模 
与 正确 的 模式 有 很 大 的 距离 。 这 对 应 着 基于 局 部 移动 IR 上 的 单个 变量 x 的 马尔 可 夫 链 。 对 于 大 
部 分 深度 概率 模型 来 说 ， 马 尔 可 夫 链 是 基于 Gibbs 采 样 的 ， 并 且 对 于 单个 变量 产生 非 局 部 的 移动 
但 是 无 法 同时 移动 所 有 的 变量 。 对 于 这 些 问题 来 说 ， 考 虑 编辑 距离 比 欧式 距离 通 第 更 好 。 然 
而 ， 噩 维 空间 的 编辑 距离 很 难 在 二 维 空间 作 图 展示 


CD 算法 可 以 被 理解 为 惩 神 攻 类 柑 型 ， 这 类 模型 的 马尔 可 夫 链 会 快速 改 
变 来 日 数据 的 输入 。 这 意味 看 使 用 CD 训练 从 某 种 程度 上 说 类 似 于 训 练 
目 编 码 右 。 即 使 CD 估计 比 一 些 其 他 训练 方法 其 有 喝 大 偏 友 ， 但 是 它 有 
助 于 预 训练 之 后 会 堆 于 起 来 的 浅 层 模型 。 这 是 因为 堆栈 中 最 早 的 模型 会 
受 油 励 复制 更 多 的 信息 a 到 其 淤 变 量 ， 使 其 可 用 于 随后 的 模型 。 这 应 该 更 
多 地 被 认为 是 CD 训练 中 经 党 可 利用 的 副产品 ， 而 个 是 主要 的 设计 优 


势 。 
































Sutskever and Tieleman (2010) 表明 ，CD 的 更 新 方 癌 不 是 任何 函数 的 梯 
上 度 。 这 使 得 CD 可 能 存在 永久 循环 的 情况 ， 但 在 实践 中 这 并 不 是 一 个 严 
重 的 问题 。 


为 一 个 解决 CD 中 许多 问题 的 不 同人 上 略 古 ， 在 每 个 李 度 步 又 中 初始 化 马 
尔 可 夫 链 为 先前 梯度 步骤 的 状态 值 。 这 个 方法 首先 被 应 用 数学 和 统计 学 
社 群 发现 ， 命 名 为 随机 最 大 似 然 ” (SML) (Younes, 1998) , KX 
在 深 丰 学习 社 群 中 以 名 称 持续 性 对 比 散 有 度 ‘PCD， 或 者 每 个 更 独 中 具 
有 k 个 Gibbs 步 又 的 PCD-k) 被 独立 地 重新 发 现 (Tieleman, 2008) 。 具 
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的 步 长 很 小 ， 那 么 前 一 步 又 的 模型 将 类 似 于 当前 步骤 的 模型 。 因 此 ， 来 
目 完 前 模型 分 布 的 样本 将 非 第 接近 来 目 当 前 模型 分 布 的 客观 样本 ， 用 这 
些 样 本 初始 化 的 马尔 可 夫 链 将 不 需要 化 费 很 多 时 间 来 完成 混合 。 


因为 每 个 马尔 可 夫 链 在 整个 学 习 过 程 中 不 断 更 新 ， 而 不 是 在 每 个 梯度 步 
又 中 重新 开始 ， 马 尔 可 夫 链 可 以 目 由 探索 很 还 ， 以 找到 模型 的 所 有 峰 
值 。 因 此 ，SML 比 CD 更 不 容易 形成 共有 虐 假 模 态 的 模型 。 此 外 ， 因 为 
可 以 存储 所 有 采样 变量 的 状态 ， 无 论 是 可 见 的 还 是 潜在 的 ，SML 为 隐藏 
单元 和 可 见 单元 都 提供 了 初始 值 。CD 只 能 为 可 见 单元 提供 初始 化 ， 
此 深度 模型 需要 进行 磨合 步骤。SML 能 够 高 效 地 训练 深度 模型 。Marlin 
et al. (2010) 将 SML 与 本 章 中 提出 的 许多 其 他 标准 方法 进行 比较 。 他 
们 发 现 ，SML 在 RBM 上 得 到 了 最 佳 的 测试 集 对 数 似 然 ， 并 且 如 果 RBM 
的 隐藏 单元 被 用 作 SVM 分 类 器 的 特征 ， 那 么 SML 会 得 到 最 好 的 分 类 精 


度 。 





算法 18.3 ”随机 最 大 似 然 /持续 性 对 比 散 度 算 法 ， 使 用 梯度 上 升 作 为 优化 





BIKE 为 一 个 小 正 数 。 


设 吉 布 斯 步 数 k 大 到 足以 让 从 p(X; 0 + eg) 采样 的 马尔 可 夫 链 磨 
合 ( 从 采 自 p(x ; 6 ) 的 样本 开始 ) 。 在 小 图 像 集 上 训练 一 个 RBM 大 致 设 
为 1， 对 于 更 复杂 的 模型 如 次 度 玻 尔 效 肾 机 可 能 要 设 为 5-50。 


初始 化 mm 个 样本 { 文 4)， xm) 为 随机 值 〈 例 如 ， 从 均匀 或 正 态 
分 布 中 采 ， 或 大 致 与 模型 边缘 分 布 死 配 的 分 布 ) 。 
while 不 收敛 do 


从 训练 集中 采 包 含 m 个 样本 {x 外，...，x 四 } 的 小 批量 。 
1 一 Mm 


5 m 2Zi=1 Vo log p(x”: 0). 


for i=1 to k do 
for j=1 to m do 
XV) — gibbs_update(x)). 
end for 


end for 


BE- =), Vo log p(x; 4). 
0 — 0 + eg. 


end while 





在 k 太 小 或 太 大 时 ， 随 机 梯度 算法 移动 模型 的 速率 比 马 尔 可 夫 链 在 迭代 

步 中 混合 更 快 ， 此 时 SML 容 易 变 得 不 准确 。 不 幸 的 是 ， 这 些 值 的 容许 范 
高 度 依 赖 于 有 具体 问题 。 现 在 还 没有 方法 能 够 正式 地 测试 马尔 可 夫 链 是 
否 能 够 在 迭代 步骤 之 间 成 功 混 合 。 主 观 地 ， 如 果 对 于 Gibbs 步 又 数目 而 

言 学 习 率 太 大 的 话 ， 那 么 梯度 步骤 中 负 相 采样 的 方 兰 会 比 不 同 马尔 可 夫 
链 中 负 相 采样 的 方差 更 大 。 例 如 ， 一 个 MNIST 模 型 在 一 个 步骤 中 只 采样 
得 到 了 了 7。 然后 学 习 过 程 将 会 极 大 降低 7 对 应 的 峰值 ， 在 下 一 个 步骤 中 ， 

模型 可 能 会 只 采样 得 到 9。 


从 使 用 SML 训 练 的 模型 中 评估 采样 必须 非常 小 心 。 在 模型 训练 完 之 后 ， 
有 必要 从 一 个 随机 起 点 初始 化 的 新 马尔 可 夫 链 抽取 样本 。 用 于 训练 的 连 
续 负 相 链 中 的 样本 受到 了 模型 最 近 儿 个 版 本 的 影响 ， 会 使 模型 看 起 来 共 
有 比 其 实际 更 大 的 容量 。 


Berglund and Raiko (2013) 进行 了 实验 来 检验 由 CD 和 SML 进 行 柳 度 估 
TPT OK A ine eo RUE RA CD LEE Fa OE Th tT BA ERY 
Vizio MSMLA Sim ny 77%. CDT AIK JR Ale, KE EM A 
EH STAIR. WR ATI VISE OR WSR oA, MAT AS 
EIE Ts ACE AY 1 OP 7 ELK 


所 有 基于 MCMC 从 模型 中 抽取 样本 的 方法 在 原则 上 几乎 可 以 与 MCMC 
的 任何 变 体 一 起 使 用 。 这 意味 看 诺 如 SML 这 样 的 技术 可 以 使 用 第 17 章 中 
撞 述 的 任何 增强 MCMC 的 技术 《例如 并 行 回 火 ) 来 加 以 改进 
(Desjardins et al. , 2010; Cho etal. 2010b) 。 


一 种 在 学 习 期 间 加 速 混 合 的 方法 是 ， 不 改变 权 特 卡 多 采样 技术 ， 而 是 改 
变 模 型 的 参数 化 和 代价 函数 。 快 速 持 续 性 对 比 散 有 度 (fast persistent 
contrastive divergence) ， 或 者 FPCD (Tieleman and Hinton, 2009) 使 用 
如 下 表达 式 去 蔡 换 传统 模型 的 参数 6 


0 - 9 (slow) al g (fast) (18.16) 


现在 的 参数 是 以 前 的 两 倍 多 ， 将 其 逐个 相 加 以 定义 原始 模型 的 参数 。 快 
速 复制 参数 可 以 使 用 更 大 的 学 习 率 来 训练 ， 从 而 使 其 快速 啊 应 学 习 的 负 
相 ， 并 促使 马尔 可 夫 链 探 票 新 的 区 域 。 这 能 够 使 马尔 可 夫 链 快速 泥 合 ， 

尽 宫 这 种 效应 只 会 及 生 在 学 习 期 间 快 速 权 重 可 以 目 由 改变 的 时 候 。 通 

种， 在 短 时 间 地 将 快速 权重 设 为 大 值 并 保持 足够 长 时 间 ， 使 马尔 可 夫 链 
a a RIRI RENEE ee A EE ak, HEE TE ATS 
到 较 小 的 1 


本 节 介绍 的 基于 MCMC 的 方法 ， 一 个 关键 优点 是 它们 提供 了 log ZBE 
的 售 计 ， 因 此 我 们 可 以 从 本 质 上 将 问题 分 解 为 JOg p 和 log ZFS. 4 
后 可 以 使 用 任何 其 他 的 方法 来 处 理 ]Og 方 (x )， 只 需 将 我 们 的 负 相 梯度 
加 到 其 他 方法 的 梯度 中 。 特 别 地 ， 这 时 水 着 正 相 可 以 使 用 那些 仅 提供 
方 ” 下限 的 方法 。 然而， 本章 介 绍 处 理 log Z 的 大 多 数 其 他 方法 都 和 基于 
边界 的 正 相 方法 是 不 兼容 的 。 


18.3 NIAZ 


BRE RF EMN RANA Fis PSE ig ESF AEN GP} PRI A PEER ITT 1K 
通过 训练 不 需要 计算 配 分 函数 的 模型 来 绕 开 这 个 问题 。 这 些 方 法 大 多 数 
部 基于 以 下 观察 : 无 问 概 率 贷 型 中 很 容易 计算 概率 的 比率 。 这 和 古 因 为 配 
分 图 数 同时 出 现在 比率 的 分 于 和 分 母 中 ， 互 相抵 谢 : 


p(x) _ zA) u P (18.17) 
p(y) zDbly 


DAIN EEE TIE VA AE RFS, Al Ay E 
有 配 分 图 数 的 情况 下 进行 计算 。 假 变 我 们 将 X 分 为 a、b 和 c ， 其 中 a 包 
售 我 们 想 要 的 条 件 分 布 的 变量 ，b 包含 我 们 想 要 条 件 化 的 变量 ，c US 
除 此 之 外 的 变量 : 

p(a, b) pla, b) pla, b) 


MAn A Eaa Eaha iai 


以 上 计算 需要 边缘 化 a ， 假 设 a 和 c 包含 的 变量 并 不 多 ， 那 么 这 将 是 非常 
高 效 的 操作 。 在 极端 情况 下 ，a 可 以 是 单个 变量 ，c WDNR, BAR 
计算 仅 需 要 估计 与 单个 随机 变量 值 一 样 多 的 方 。 


不 竺 的 是 ， 为 了 计算 对 数 似 然 ， 我 们 需要 边缘 化 很 多 变量 。 如 末 总 共有 
n 个 变量 ， 那 么 我 们 必须 边缘 化 n-1 个 变量 。 根 据 概率 的 链 式 法 则 ， 我 们 
有 





Se 
os 





log p(x) = log p(a1) + log p(xə2 | x1) +--- + log p(@p | X1-n-1) (18.19) 


在 这 种 情况 下 ， 我 们 已 经 使 a 尽 可 能 小 ， 但 是 c 可 以 大 到 x ,.，。 如 果 我 
们 简单 地 将 c 移 到 b 中 以 减少 计算 代价 ， 那 么 会 肥 生 什么 呢 ?” 这 便 产 生 
了 伪 似 然 ”(pseudolikelihood) (Besag, 1975) 目标 函数 ， 给 定 所 有 其 
他 特征 x_i; ， 预 测 特征 xi; 的 值 : 


> log p(a: [m (18.20) 

i=l 
如 果 每 个 随机 变量 有 k 个 不 同 的 值 ， 那 么 计算 PD 需要 kxn 次 估计 ， 而 计 
算 配 分 函数 需要 k" 次 估计 。 
这 看 起 来 似乎 是 一 个 没有 道理 的 策略 ， 但 可 以 证 明 最 大 化 伪 似 然 的 估计 


是 渐 近 一 致 的 (Mase，1995) 。 当 然 ， 在 数据 集 不 趋 近 于 大 采样 极限 的 
情况 下 ， 伪 似 然 可 能 表现 出 与 最 大 似 然 估计 不 同 的 结果 。 


我 们 可 以 使 用 广义 伪 似 然 估 计 (generalized pseudolikelihood estimator) 
来 权衡 计算 复杂 度 和 了 最 大 似 然 表现 的 俩 兰 (Huang and Ogata, 2002) . 
广义 伪 似 然 估计 使 用 mn 个 不 同 的 集合 S(2) ，i 二 1，...，m 作 为 变量 的 指 
标 出 现在 条 件 棱 的 左 侧 。 在 m 二 1 和 (1) = | >. 了 nn 的 极 问 情况 
下 ， 广 义 伪 似 然 估计 会 变 为 对 数 似 然 。 在 m 二 n 和 S(?) — fit 的 极端 情 
况 下 ， 厂 义 伪 似 然 会 恢复 为 伪 似 然 。 厂 义 伪 似 然 估 计 目 标 函 数 如 下 所 示 


y. log p(Xgci) | X sa) ) (18.21) 
i=1 


基于 伪 似 然 的 方法 的 性 能 在 很 大 程度 上 取决 于 模型 是 如 何 使 用 的 。 对 于 
完全 联合 分 布 p(x ) 模 型 的 任务 〈 例 如 密度 估计 和 采样 ) ， 伪 似 然 通 常 效 
果 不 好 。 对 于 在 训练 期 间 只 需要 使 用 条 件 分 布 的 任务 而 言 ， 它 的 效果 比 
最 大 似 然 更 好 ， 例 如 填充 少量 的 缺失 值 。 如 果 数 据 具 有 规则 结构 ， 使 得 
S 索引 集 可 以 被 设计 为 表现 最 重要 的 相关 性 质 ， 同 时 略 去 相关 性 可 忽 
略 的 变量 ， 那 么 广义 伪 似 然 策略 将 会 非常 有 效 。 例 如 ， 在 自然 图 像 中 ， 
空间 中 相隔 很 远 的 像素 也 具有 弱 相 关 性 ， 因 此 广义 伪 似 然 可 以 应 用 于 每 
个 SS 集 是 小 的 局 部 空间 窗口 的 情况 。 


伪 似 然 估计 的 一 个 弱点 是 它 不 能 与 仅 在 方 (X) ”上 提供 下 界 的 其 他 近似 
一 起 使 用 ， 例 如 第 19 章 中 介绍 的 变 分 推断 。 这 是 因为 方 ”出 现在 了 分 母 
中 。 分 母 的 下 界 仅 提供 了 整个 表达 式 的 上 界 ， 然 而 最 大 化 上 界 没 有 什么 
意义 。 这 使 得 我 们 难以 将 伪 似 然 方法 应 用 于 诸如 深度 玻 尔 兹 曼 机 的 深度 
模型 ， 因 为 变 分 方法 是 近似 边缘 化 互相 作用 的 多 层 隐 藏 变量 的 主要 方法 
之 一 。 尽 管 如 此 ， 伪 似 然 仍 然 可 以 用 在 深度 学 习 中 ， 它 可 以 用 于 单 层 模 
型 ， 或 使 用 不 基于 下 界 的 近似 推断 方法 的 深度 模型 中 。 


伪 似 然 比 SML 在 每 个 梯度 步骤 中 的 计算 代价 要 大 得 多 ， 这 是 由 于 其 对 所 
有 条 件 进 行 显 式 计算 。 但 是 ， 如 有 果 每 个 样本 只 计算 一 个 随机 选择 的 条 
件 ， 那 么 广义 伪 似 然 和 类 似 标 准 仍 然 可 以 很 好 地 运行 ， 从 而 使 计算 代价 
降低 到 和 SML 磊 不 多 的 程度 (Goodfellow et al. ，2013d) 。 


虽然 伪 似 然 估计 没有 显 式 地 最 小 化 log Z， 但 是 我 们 仍然 认为 它 具 有 类 似 
负 相 的 效 琳 。 每 个 条 件 分 布 的 分 母 会 使 得 学 习 算法 降低 所 有 仅 共 有 一 个 
变量 不 同 于 训练 样本 的 状态 的 概率 。 


ear A) L234 Marlin and de Freitas (2011) 了 解 伪 似 然 渐 近 效 率 的 理论 
分 析 ， 


18.4 得 分 匹配 和 比率 匹配 


得 分 匹配 〈Hyvirinen，2005b) 提供 了 另 一 种 训练 模型 而 不 需要 佑 计 Z 
或 其 导数 的 一 致 性 方法 。 对 数 密度 关于 参数 的 导数 V j, log p(x) » {X 
称 为 其 得 分 = (score) ， 得 分 匹配 这 个 名 称 正 是 来 目 这 样 的 术语 。 得 分 
匹配 采用 的 稼 略 是 ， 了 最 小 化 模型 对 数 密 度 和 数据 对 数 黎 度 基 于 输入 的 导 
BZ IA) CP a Fe Ee 


1 
L(x, 0) = 5 Ee log Pmodel( 2; 0) — Ve log Paata (£) || (18.22) 
1 
J(0) = 5 Epastalz) Le, 0) (18.23) 
0 = min J(0) (18.24) 


该 目标 函数 避免 了 微分 配 分 函数 Z 带 来 的 难题 ， 因 为 Z 不 是 x 的 函数 ， 
HAVZ =O 。 最 初 ， 得 分 匹配 似乎 有 一 个 新 的 困难 : 计算 数据 
分 布 的 得 分 需要 知道 生成 训练 数据 的 真实 分 布 p uaa 。 幸 运 的 是 ， 最 小 化 
L(x ，0) 的 期 望 等 价 于 最 小 化 下 式 的 期 户 


m = 82 if ð 2 
Ll 0) = 2 (Forman = 5 (so Hoe pPmoaa(2:0) ) (18.25) 
其 中 n 是 x 的 维度 。 


因为 得 分 匹配 需要 关于 x ”的 导数 ， 所 以 它 不 适用 于 具有 离散 数据 的 模 
AL, {Ee BRE ee FY De HY o 


类 似 于 伪 似 然 ， 得 分 匹配 只 有 在 我 们 能 够 直接 估计 ]og p(x) 及 其 导数 
的 时 候 才 有 效 。 它 与 对 ]og p(x) 仅 提供 下 界 的 方法 不 兼容 ， 因 为 得 分 
匹配 需要 ]og p(x) 的 导数 和 二 阶 导数 ， 而 下 限 不 能 传达 关于 导数 的 任 
何 信息 。 这 意味 着 得 分 匹配 不 能 应 用 于 隐藏 单元 之 间 具 有 复杂 相互 作用 
的 模型 估计， 例如 稀疏 编码 模型 或 深度 玻 尔 兹 曼 机 。 虽 然 得 分 匹配 可 以 
用 于 预 训练 较 大 模型 的 第 一 个 隐藏 层 ， 但 是 它 没有 被 用 于 预 训练 较 大 模 


BYE BOAR J PNAS IX HJ Hee A) Aye ERR A AY) Be aR J sR 
E, 
FE o 





里 然 得 分 匹配 没有 明确 显示 其 有 人 负 相 信息 ， 但 是 它 可 以 被 视 为 使 用 特定 
类 型 马尔 可 夫 链 的 对 比 散 度 的 变种 〈Hyvirinen，2007a) 。 在 这 种 情况 
下 ， 马 尔 可 夫 链 并 没有 及 用 Gibbs 采 样 ， 而 是 采用 一 种 由 梯度 引导 局 部 
更 新 的 不 同方 法 。 当 局 部 更 新 的 大 小 接近 于 0 时 ， 得 分 匹配 等 价 于 共有 
这 种 马尔 可 夫 链 的 对 比 获 度 。 


Lyu (2009) 将 得 分 匹配 推广 到 离散 的 情况 《但 是 推导 有 误 ， 后 由 
Marlin et al. (2010) 修正 ) > Marlin et al. (2010) 发 现 ， 广 义 得 分 匹 
配 (generalized score matching, GSM) 在 许多 样本 观测 概率 为 0 的 高 维 
离散 空间 中 不 起 作用 。 


一 种 更 成 功 地 将 得 分 匹配 的 基本 想法 扩展 到 离散 数据 的 方法 是 比率 匹配 
(ratio matching) (Hyvärinen, 2007b) 。 比 率 匹 配 特 别 适 用 于 二 值 数 
据 。 比 率 匹 配 最 小 化 以 下 目标 函数 在 样本 上 的 均 介 : 


2 
| z 1 
LEM) (ae, B= Y. [| (18.26) 
+ ,J39) 


j=1 Vaca S (E) 


其 中 f( x ik llpbi (ee o ERRER T 5AA Id 
AES HR GE FF ic ay eR: «Ly eR ASS EA PY LE FIRA. Marlin 
et al. (2010) AH, WAKA Zs MAAR, LEAR VAC HY CR 
要 优 于 SML、 伪 似 然 和 GSM。 


关 似 于 伪 似 然 佑 计 ， 比 率 匹 配对 每 个 数据 点 都 需要 n 个 PP 的 估计 ， 因 此 
每 次 更 新 的 计算 代价 大 约 比 SMEL 的 计算 代价 高 出 n 倍 。 


与 伪 似 然 估计 一 样 ， 我 们 可 以 认为 比率 匹配 减 小 了 所 有 只 有 一 个 变量 不 
同 于 训练 样本 的 状态 的 概率 。 由 于 比率 匹配 特别 适用 于 二 值 数据 ， 这 意 
味 看 在 与 数据 的 汉 明 距离 为 1 内 的 所 有 状态 上 ， 比 京 匹配 部 是 有 效 的 。 


比率 匹配 还 可 以 作为 处 理 高 维 稀世 数 据 《〈 例 如 词 计数 癌 量 ) 的 基础 。 这 
类 稀 玩 数据 对 基于 MCMC 的 方法 提出 了 挑战 ， 因 为 以 密集 格式 表示 数据 
是 非常 消耗 计算 资源 的 ， 而 只 有 在 模型 学 会 表示 数据 分 布 的 黎 玩 性 之 


Jan, MCMC A "Ze Mii. Dauphin and Bengio (2013) 设计 了 
LE DL AE HI FC i BE WLT WR AR I a el. AEWA A Pb Le FEY H 
标 子 集 ， 不 需要 模型 生成 完整 的 样本 。 


读者 可 以 参考 Marlin and de Freitas (2011) 了 解 比率 匹配 渐 近 效率 的 理 
论 分 析 。 


18.5 ARIFIN VLA 
东 些 情况 下 ， 我 们 希望 拟 合 以 下 分 布 来 正则 化 得 分 匹配 
Damacthad it) — | rasta vate | y)dy (18.27) 


而 不 是 拟 合 真实 分 布 p uaa 。 分 布 d( x | y ) 是 一 个 损坏 过 程 ， 通 第 在 形 
成 x 的 过 程 中 会 同 y 中 添加 少量 噪声 。 


去 噪 得 分 匹配 非常 有 用 ， 因 为 在 实践 中 ， 通 第 我 们 不 能 获取 真实 的 p ata 
， 而 只 能 得 到 其 样本 确定 的 经 验 分 布 。 给 定 足 鹃 容 量 ， 任 何 一 致 估 计 都 
会 使 p nod 成 为 一 组 以 训练 点 为 中 心 的 Dirac 分 布 。 考 虑 在 第 5.4.5 节 介绍 
的 渐 近 一 致 性 上 的 损失 ， 通 过 qd 来 平滑 有 助 于 绥 解 这 个 问题 。Kingma 
and LeCun (2010b) 介绍 了 平滑 分 布 q9 为 正 态 分 布 噪声 的 正则 化 得 分 匹 
配 。 


回顾 第 14.5.1 节 ， 有 一 些 目 编 但 画 训 练 算法 等 价 于 得 分 匹配 或 去 品 得 分 
玫 配 。 因 此 ， 这 些 上 自 编 码 占 训练 算法 也 是 解决 配 分 函数 问题 的 一 种 方 
Te 


18.6 Hee xchat 

具有 难 求解 的 配 分 函数 的 大 多 数 模型 估计 都 没有 估计 配 分 函数 。SML 和 
CD 只 估计 对 数 配 分 函数 的 梯度 ， 而 不 是 估计 配 分 函数 本 身 。 得 分 匹配 
和 伪 似 然 避免 了 和 配 分 函数 相关 的 计算 。 


噪声 对 比 估计 = (noise-contrastive estimation, NCE) (Gutmann and 
Hyvarinen, 2010) ACH SMASH. FERIA, BRA Th 


的 概率 分 布 被 明确 表示 为 
log Vinwdai(X) = log Popda (E 0) TE (18.28) 


其 中 c 是 -log Z( 0 ) 的 近似 。 噪 声 对 比 估计 过 程 将 c 视 为 男 一 参数 ， 使 用 
相同 的 算法 同时 估计 8 和 c， 而 不 是 仅仅 估计 9 。 因 此 ， 所 得 到 的 log p 
mode! (X ) 可 能 并 不 完全 对 应 有 效 的 概率 分 布 ， 但 随 着 c 佑 计 的 改进 ， 它 将 
变 得 越 来 越 接近 有 效 值 中-。 


这 种 方法 不 可 能 使 用 最 大 似 然 作为 信 计 的 标准 。 最 大 似 然 标 准 可 以 设置 
c 为 任意 大 的 值 ， 而 不 是 设置 c 以 创建 一 个 有 效 的 概率 分 布 。 


NCE 将 估计 p(x ) 的 无 监督 学 习 问 题 转化 为 学 习 一 个 概率 二 元 分 类 右 ， 其 
中 一 个 类 别 对 应 模型 生成 的 数据 。 该 监督 学 习 问 题 中 的 最 大 似 然 估计 定 
义 了 原始 问题 的 渐 近 一 致 估计 。 


具体 地 说 ， 我 们 引入 第 二 个 分 布 ， 噪 声 分 布 (noise distribution) P hoise 


(x )。 噪 声 分 布 应 该 吻 于 估计 和 从 中 采样 。 我 们 现在 可 以 构造 一 个 联合 x 
和 新 二 值 变 量 y 的 模型 。 在 新 的 联合 模型 中 ， 我 们 指定 


Pjoint(y = 1) = 5 (18.29) 
Pjoint (X | y = 1) = Pmodei(X) (18.30) 

和 
Djoint(X | y = 0) = Pnoise(X) (18.31) 


PRE Zs ye PMR TE BAT Me I ve AR PAE ax WARA 


下 


我 们 可 以 在 训练 数据 上 构造 一 个 类 似 的 联合 模型 。 在 这 种 情况 下 ， 开 天 


a ERM 
Ptrain (Y = | ) — 5 > Pp train & | Y=1)=P aata (X 


)， FD train X | Y=0)=P noise (X )。 


现在 我 们 可 以 应 用 标准 的 最 大 似 然 学 习 拟 合 p un 到 p train 的 监督 学 习 问 


re: 
0; o= are max Ey asaan OL Pisin Y | X) (18:32) 
0,c 


分 布 p jom A EERE E E VAE ov H FRR AR E A L E IR A 
MELA: 


六 mmolal( 
TE = 7 | x) a ume ___ 1583 
mi ty | Dinadel(&) zy Pnoise (x) ) 


1 


SS 18.34) 
Pnoise (x) ( 
l + Pmodel xX) 
1 
_ — (18.35) 
Pnoise\* 
1 F SXP (log — ) 
3 (- log — (18.36) 
nodai 
= 一 o (log i ET X) ee log R (18.37) 


因此 ， 只 要 ]Og Prode 易于 反 向 传播 ， 并 且 如 上 所 述 ，p noise 应 易于 
估计 《以 便 评 佑 p_i O 和 采样 〈 以 生成 训练 数据 ) ， 那 么 NCE 就 易于 
使 用 。 


NCE 能 够 非常 成 功 地 应 用 于 随机 变量 较 少 的 问题 ， 但 即使 随机 变量 有 很 
多 可 以 取 的 值 时 ， 它 也 很 有 效 。 例 如 ， 它 已 经 成 功 地 应 用 于 给 定单 词 上 
下 文 建 模 单词 的 条 件 分 布 (Mnih and Kavukcuoglu，2013) 。 虽 然 单 词 


一 


可 以 采样 目 一 个 很 大 的 词汇 表 ， 但 是 只 能 采样 一 个 单词 。 

当 NCE 应 用 于 共有 许多 随机 变量 的 问题 时 ， 其 效率 会 变 得 较 低 。 当 所 和 辑 
回归 分 基带 及 现 茶 个 变量 的 取信 不 大 可 能 时 ， 它 会 拒绝 这 个 噪声 样本 。 
这 意味 着 在 p modal 学 习 了 基本 的 边缘 统计 之 后 ， 学 习 进 程 会 大 大 减 慢 。 
想象 一 个 使 用 非 结 爸 化 局 斯 噪声 作为 p noise 来 学 习 面 部 图 像 的 模型 。 如 
ARP mode 学 会 了 眼睛， 束 算 没有 学 习 任 何其 他 面部 特征 ， 比 如 路 ， 它 也 
会 拒绝 几乎 所 有 的 非 结 构 化 噪声 样本 。 


IRE IIEP noise 必须 是 易于 估计 和 采样 的 约束 可 能 古 过 于 严格 的 限制 。 
当 p noise 比较 简单 时 ， 关 多 数 采 样 可 能 与 数据 有 看 明 旺 不 同 ， 而 不 会 迫 
使 p model 进行 显著 改进 。 


类 似 于 得 分 匹配 和 伪 似 然 ， 如 果 D 只 有 下 界 ， 那 么 NCE 不 会 有 效 。 这 
样 的 下 界 能 够 用 于 构建 p join (y 二 11X DIN PA, (ee RR Te ep 
joint (7 二 0 | x )〈 出 现在 一 半 的 NCE 对 象 中 ) 的 上 界 。 同 样 地 ，p poise 的 
下 界 也 没有 用 ， 因 为 它 只 提供 了 piontGy=1 | x) 的 上 界 。 


在 每 个 梯度 步骤 之 前 ， 柑 型 分 布 被 复制 来 定义 新 的 噪声 分 布 时 ，NCE 和 定 
义 了 一 个 被 称 为 目 对 比 估 计 Cself-contrastive estimation) 的 过 程 ， 其 要 
上 度 期 望 等 价 于 最 大 似 然 的 梯度 期 望 (Goodfellow, 2014) 。 特 殊 情 况 的 
NCE “噪声 采样 由 模型 生成 ) 表明 ， 最 大 似 然 可 以 被 解释 为 使 模型 不 断 
学 习 以 将 现实 与 目 身 发 展 的 信念 区 分 的 过 程 ， 而 噪声 对 比 估计 通过 让 模 
型 区 分 现实 和 轩 定 的 基准 《噪声 模型 ) ， 我 们 降低 了 计算 成 本 。 


在 训练 样本 和 生成 样本 《使 用 模型 能 量 函 数 定 义 分 类 左 ) 之 间 进 行 分 类 
以 得 到 模型 的 梯度 的 方法 ， 已 经 在 更 早 的 时 候 以 各 种 形式 提出 来 
(Welling et al. , 2003b; Bengio, 2009) . 


噪声 对 比 估计 是 基于 良好 生成 模型 应 该 能 够 区 分 数据 和 噪声 的 想法 。 一 
个 黎 切 相关 的 想法 是 ， 民 好 的 生成 模型 能 够 生成 分 关 喜 无 法 将 其 与 数据 
区 分 的 样本 。 这 个 想法 诞生 了 生成 式 对 抗 网 络 〈 第 20.10.4 节 ) 。 


18.7 ”估计 配 分 函数 

尽管 本 章 中 的 大 部 分 内 容 都 在 避免 计算 与 无 向 图 模型 相关 的 难以 计算 的 
配 分 函数 Z〈 9 ) ， 但 在 本 节 中 我 们 将 会 讨论 几 种 直接 估计 配 分 函数 的 
估计 配 分 函数 可 能 会 很 重要 ， 当 希望 计算 数据 的 归 一 化 似 然 时 ， 我 们 会 
需要 它 。 在 评估 模型 、 监 控 训 练 性 能 和 比较 模型 时 ， 这 通常 是 很 重要 
的 。 


例如 ， 假 设 我 们 有 两 个 模型 : 概率 分 布 为 


| a L = l . 
pa(xX;04) = Gara (xX; O04) Wa Ma 
mi*2npB(X; OB) = z—PB(x; 0B) 
的 模型 ,人 人 户 。。 比 较 模型 的 常用 方法 是 评估 和 比较 两 个 模型 分 配给 独 
立 同 分 布 测试 数据 集 的 似 然 。 假 设 测试 集 含 m 个 样本 { xO, x 的 
bo WA] |, pa(x:-@,) > [IL pgs; 0B)， 或 等 价 地 ， 如 果 


> log pa(x; 04) — X logpes(x®; 0B) > 0 (18.38) 


那么 我 们 说 人 MA y 是 一 个 比 人 MP 更 好 的 模型 (或 者 ， 至 少 可 以 说 ， 
它 在 测试 集 上 是 一 个 更 好 的 模型 》， 这 是 指 它 有 一 个 更 好 的 测试 对 数 似 
然 。 不 幸 的 是 ， 测 试 这 个 条 件 是 否 成 立 需要 知道 配 分 函数 。 式 
(13.38) 看 起 来 需要 估计 模型 分 配给 每 个 点 的 对 数 概率 ， 因 而 需要 估 
计 配 分 函数 。 我 们 可 以 通过 将 式 〈18.38) 重新 转化 为 另 一 种 形式 来 简 
化 情况 ， 在 该 形式 中 我 们 只 需要 知道 两 个 模型 的 配 分 函数 的 比率 : 








a(x: 0 Z(0 
i i PA\X*"; 
》 log pa(x®:; 04) 一 > log pp(x; 0p) = > (108 or 2.) — mlog oe (18.39) 


2 


因此 ， 我 们 可 以 在 不 知道 任 一 模型 的 配 分 函数 ， 而 只 知道 它们 比率 的 情 
i 判断 模型 人 人 A 是 否 比 模型 人 M1 B 更 优 。 正 如 我 们 将 很 快 看 到 
的 ， 在 两 个 模型 相似 的 情况 下 ， 我 们 可 以 使 用 重要 采样 来 估计 比率 。 
然而 ， 如 果 我 们 想 要 计算 测试 数据 在 人 /人 A 或 M B 上 的 真实 概率 ， 
我 们 需要 计算 配 分 函数 的 真实 值 。 如 果 我 们 知道 两 个 配 分 函数 的 比率 ， 
ye — ra 并 且 知 道 两 者 中 一 个 的 实际 值 ， 比 如 说 Z(0。)， 那 
Ga 
么 我 们 可 以 计算 另 一 个 的 值 : 





Z(0B) 
Z(O4) 





wos) =rZ(04) = Z(04) (18.40) 


一 种 估计 配 分 函数 的 简单 方法 是 使 用 蒙特 卡 罗 方 法 ， 例 如 简单 重要 采 
样 。 以 下 用 连续 变量 积分 来 表示 该 方法 ， 也 可 以 蔡 换 积分 为 求 和 ， 很 容 


易 将 其 应 用 到 离散 变量 的 情况 。 我 们 使 用 提议 分 布 











po(x) = ze Dol X) ， 其 在 配 分 函数 Zo 和 来 归 一 化 分 布 
Do (XX) 上 易于 采样 和 估计 。 
E = | reas (18.41) 
= | Sn ax (18.42) 
- Zo | voix) dx (18.43) 
Ža = pe st. 2x) ~ po (18.44) 


在 最 后 一 行 ， 我 们 使 用 蒙特 卡 罗 估 计 ， 使 用 从 p o (x ) 中 抽取 的 采样 计算 
积分 多，， 然 后 用 未 归 一 化 的 方 | 和 提议 分 布 p 。 的 比率 对 每 个 采样 加 
权 。 


这 种 方法 使 得 我 们 可 以 信 计 配 分 函数 之 则 的 比率 : 
es > 六 区 ) s.t.: x") ~ po (18.45) 


Ra ANE A ee EU (18.39) PE PSA 


如 果 分 布 p o 接近 p , » MAR (18.44) 能 够 有 效 地 估计 配 分 函数 
(Minka, 2005) 。 不 入 的 是 ， 大 多 数 时 候 p , 都 很 复杂 CH ESI 
的 ) ， 并 且 定 义 在 高 维 空间 中 。 很 难 找 到 一 个 易 求 解 的 p o ， 既 能 易于 
评估 ， 又 能 充分 接近 p , 以 保持 高 质量 的 近似 。 如 果 po 和 p ; 不 接近 ， 那 
Ap o 的 大 多 数 采 样 将 在 p , 中 具有 较 低 的 概率 ， 从 而 在 式 〈18.44) 的 求 
和 中 产生 (相对 的 ) 可 忽略 的 贡献 。 


BURR AR AZ BULA ee EAS, ALAR oe HY EN A TD 
导致 估计 的 效 末 很 震 。 这 可 以 通过 们 计 2N1 的 方才 来 定量 地 理解 : 


2 


P ss\ Zo p(x) n 
Var (21) =K 一 一 Be he (18.46) 





O 
“me RL) 存在 显著 仿 差 时 ， 上 式 的 值 是 最 大 的 。 
我 们 现在 关注 两 个 解决 高 维 空间 复杂 分 布 上 估计 配 分 函数 的 方法 ， 退 火 
重要 采样 和 桥 式 采样 。 两 者 都 始 于 上 面 介 绍 的 简单 重要 采样 方法 ， 并 且 
都 试图 通过 引入 缩小 py 和 p , 之 间 差距 的 中 间 分 布 ， 来 解决 po 远离 p ; 的 


问题 。 


18.7.1 退火 重要 采样 


在 D kr (Po lp, MRAM TAL P CBlp, 和 pj 之 间 几 乎 没有 重 登 ) ， 一 种 称 
为 退火 重要 采样 (annealed importance sampling, AIS) 的 方法 试图 通过 
引入 中 间 分 布 来 缩小 这 种 差距 (Jarzynski, 1997; Neal, 2001) . 4/& 
DAFA Pos Pha ， 其 中 
0 = Ww << +++ ， 分 布 序 列 中 
的 第 一 个 和 最 后 一 个 分 别 是 po 和 p 1 。 


这 种 方法 使 我 们 能 够 估计 定义 在 高 维 空间 多 峰 分 布 (例如 训练 RBM 时 

定义 的 分 布 ) 上 的 配 分 函数 。 我 们 从 一 个 已 知 配 分 函数 的 简单 模型 ( 例 

如 ， 权 重 为 零 的 RBM) 开始 ， 估 计 两 个 模型 配 分 图 数 之 间 的 比率 。 访 

比率 的 估计 基于 许多 个 相似 分 布 的 比率 估计 ， 例 如 在 零 和 学 习 到 的 权重 

之 间 插 值 一 组 权重 不 同 的 RBM。 

par prate Up op debe at 

现在 我 们 可 以 将 e 写作 

^0 


Zi Asm m (18.47) 
Zo LoZm Zn | 


_ 2m 2m Sm _ 41 


= Ie 18.48 
Z 0 Ln, Lnn —2 Lnn 一 工 i 
n— 1 
21j+1 
E . 18.49 
Li Zy, _ 
j=0 : 


如 果 对 于 所 有 的 U S< 7 Snl, DPn; MP1 足够 接 


Lasix 
近 ， 那 么 我 们 能 够 使 用 简单 的 重要 采样 来 估计 每 个 因子 一 一 ， 然 后 


z ii 
使 用 这 些 得 到 学 二 
Z0 


这 些 中 间 分 布 是 从 哪里 来 的 呢 ? 正如 最 先 的 提议 分 布 p 。 是 一 种 设计 先 
择 ， 分 布 序列 有 7 . . Pnn i 也 是 如 此 。 也 就 是 说 ， 它 们 可 以 被 
特别 设计 为 特定 的 问题 领域 。 中 间 分 布 的 一 个 通用 和 流行 选择 是 使 用 目 
标 分 布 p 1 的 加 权 几 何平 均 ， 起 始 分 布 〈 其 配 分 函数 是 已 知 的 ) 为 p0: 


的 估计 。 


Dn, X pip, ™ (18.50) 
为 了 从 这 些 中 间 分 布 中 采样 ， 我 们 定义 了 一 组 马尔 可 夫 链 转 移 函数 T ，( 
x! | x )， 定 义 了 给 定 x 转移 到 x ， 的 条 件 概 率 分 布 。 转 移 算 子 T，(x 
， |x) 定义 如 下 ， 保 持 p (x RE: 


Dn; (T) = | pr Ce Tyle | x’)dax’ (18.51) 


JX HERE BS AY VM Be ete IE Sy oR A RERA BS TIA CPO, 
Metropolis-Hastings, Gibbs) ， 包 括 涉 及 多 次 遇 历 所 有 随机 变量 或 其 他 
TBARS TT IE o 


然后 ，AIS 玉 样 方法 从 po 开始 生成 样本 ， 并 便 用 转移 算 了 于 从 中 间 分 布 顺 
序 地 生成 及 样 ， 生 到 我 们 得 到 目标 分 布 p 1 的 采样 。 


e X{fk=1---K 
= KF it) ~ po(x) 
-采样 2) ~ To, (x | wf) 
-RE al Ty, a(x, | ehf),) 
-采样 al ~ Tyn KE |) 

e 结 


对 于 采样 k， 通 过 连接 式 〈18.49) 给 出 的 中 间 分 布 之 间 的 重要 性 权重 ， 
我 们 可 以 导出 目标 重要 性 权重 : 


m (hs a (k) ~ 7, (kK) 
k) — Pm(®m") Pno(@m) Blei ) (18.52) 


S k 区 k Wo aes k 
Bola) By, (EE) Bn, (eh) 


J See 90 ea 0 vit I BE Ve, Ee ETI PY Ge LS BGI EE 
log w49 ， 而 不 是 通过 概率 乘法 和 除法 计算 w (9 。 


利用 由 此 定义 的 采样 过 程 和 式 〈18.52) 中 给 出 的 重要 性 权重 ， 配 分 函 
DUN CES {ran BATA: 








W 


(18.53) 


为 了 验证 该 过 程 定 义 的 重要 采样 方案 是 否 有 效 ， 我 们 可 以 展示 Neal, 
2001) AIS 过 程 对 应 着 扩展 状态 空间 上 的 简单 重要 采样 ， 其 中 数据 点 采 


样 自 乘积 空间 [人 2», ， o, Ey, a 2Z1] 。 为 此 ， 我 们 将 扩展 空间 上 的 
分 布 定义 为 
Bn 5 T £1) (18.54) 


=i (a Sle, on (Ma | 01) Tina (Pino Se.) iis aT, (Wa, | i) (18.55) 


Cd 


Kopp 是 由 T。 定 义 的 转移 算 子 的 着 〈 应 用 贝 叶 斯 规则 ) ， 


Pal) 
Pal) 


将 以 上 代入 到 式 (18.55) 给 出 的 扩展 状态 空间 上 的 联合 分 布 中 ， 我 们 
得 到 


T(x’ | £) = T(z | x") = —~T, (a | x’) (18.56) 








(ms | (18.57) 
=p, (#1)— Ding | ws O E (18.58) 
1\"l B Te Nr Nn TT Bee mti | mi 
PTL ps (@1 | wn a)Bm l it ally (Eniga | Bn.) (18.59) 
am. n—1 Tı Lin —1 p al T 1 = Pa i T i+1 T i : 
Pn,—1 (£1) ý i . " oJ Po (na) ' iii " 


通过 上 面 给 定 的 采样 方案 ， 现 在 我 们 可 以 从 扩展 样本 上 的 联合 提议 分 布 
q 上 生成 采样 ， 联 合 分 布 如 下 : 


qd (Zn, Mici , Enni: £1) a Po( £m )Tm (Lr. | Ln, ) Aki Tin 1 (21 | Enni) (18.60) 
wk (18.59) 给 出 SI FAT ESE 0M o a 
会 从 中 抽样 ) ， 重 要 性 权重 如 下 : 
w® = P(Ly, 5° = i Ln, 1,21) = pi (x\) iaa 篇 (as?) Bn, (ay?) 
I(E: s Enni: 21) Brin E Pm (Bur) Polæ$) H 


这 些 权 重 和 AIS 上 的 权重 相同 。 因 此 ， 我 们 可 以 将 AIS 解 释 为 应 用 于 扩 
展 状 态 上 的 简单 重要 采样 ， 其 有 效 性 直接 来 源 于 重要 采样 的 有 效 性 。 


退火 重要 采样 首先 由 Jarzynski (1997) 发 现 ， 然 后 由 Neal (2001) 再 次 
独立 发 现 。 FIVE ET CRIB RARE Ae 数 的 最 党 用 方法 。 其 原 
因 可 能 与 一 影 吧 力 的 论文 (Salakhutdinov and Murray, 2008) 有 
关 ， 该 论文 并 没有 讨 伦 该 方法 相对 于 其 他 方法 的 优点 ， 而 是 介绍 了 将 其 
应 用 于 估计 受 限 玻 尔 效 曼 机 和 深 展 信念 网 络 的 配 分 函数 。 


关于 AIS 佑 计 性 质 Codd, Fes) 的 讨论 ， 请 参看 
Neal (2001) 。 


18.7.2 ITARTE 


类 似 于 AIS， 桥 式 采 样 (Bennett, 1976) 是 另 一 种 处 理 重 要 采样 缺点 的 
方法 。 并 非 将 一 系列 中 间 分 布 连接 在 一 起 ， 桥 式 采 样 依 赖 于 单个 分 布 p 、 
(被 称 为 桥 ) ， 在 已 知 配 分 函数 的 分 布 p 0 和 分 布 p , (我 们 试图 估计 其 
配 分 函数 Z , ) 之 间 插 值 。 


桥 式 采样 估计 比率 Z 1 /Z 。: DO Mpy, 之 间 重 要 性 权重 期 望 与 D1 和 
Dy 之 间 重 要 性 权重 的 比率 ， 


N 








* By (a Dx (Ly 

% = 2 于 1) (18.62) 

如 来 仔细 选择 桥 式 采样 p ; ， 使 其 与 po Mp, 都 有 很 大 重合 的 话 ， 那 么 桥 
式 采 样 能 够 允许 两 个 分 布 〈 或 更 正式 地 ，D kj olp D) ZHARKE 
距 〈 相 对 标准 重要 采样 而 言 ) 。 


N 
j= 
= 

8 


| nr rie ic Po(x)pi(#) 
H HH, Á YY 有 
可 以 表明 取 优 的 桥 式 久 样 在 力 、 (x) x 二 人 
， 其 中 r 二 Z 1 /Z 。。 这 似乎 是 一 个 不 可 行 的 解决 方案 ， 因 为 它 似 乎 需要 
我 们 估计 数值 Z 1 /2 。。 然 而 ， 可 以 从 粗粮 的 r 开 始 估 计 ， 然 后 使 用 得 到 
的 桥 式 采样 逐步 迭代 以 改进 估计 (Neal, 2005) 。 也 就 是 说 ， 我 们 会 迭 
iit Ber tt EE, AAEH BEA TR ESTA - 


链接 重要 采样 ”AIS 和 桥 式 玉 样 各 有 优点 。 如 果 D xy (P o lp 1 ) 不 太 大 
(由 于 po 和 pj 足够 接近 ) 的 话 ， 那 么 桥 式 采样 能 比 AIS 更 高 效 地 估计 配 
分 图 数 比 率 。 然 而 ， 如 果 对 于 单个 分 布 p x 而 言 ， 两 个 分 布 相距 太 远 难 
以 桥接 差距 ， 那 么 AIS 至 少 可 以 使 用 许多 潜在 中 间 分 布 来 跨越 p 和 pi 之 
间 的 差距 。Neal (2005) 展示 链接 重要 采样 方法 如 何 利 用 桥 式 采样 的 优 
， 桥 接 AIS 中 使 用 的 中 则 分 布 ， 并 且 显 车 改 进 了 整个 配 分 函数 的 估 

VT o 


在 训练 期 间 估计 配 分 函数 ”虽然 AIS 已 经 被 认为 是 用 于 估计 许多 无 问 模 
型 配 分 国 数 的 标准 方法 ， 但 是 它 在 计算 上 代价 很 高 ， 以 致 其 在 训练 期 间 


仍然 不 很 实用 。 研 究 者 探索 了 一 些 在 训练 过 程 中 估计 配 分 函数 的 替代 广 
法 ， 


使 用 桥 式 末 样 、 短 链 AIS 和 并 行 回 火 的 组 合 ，Desjardins et al. (2011) 
设计 了 一 种 在 训练 过 程 中 追踪 RBM 配 分 函数 的 方法 。 该 策略 的 基础 
是 ， 在 并 行 回 火 方法 操作 的 每 个 温度 下 ，RBM 配 分 函数 的 独立 估计 会 
一 直 你 持 。 作 者 将 相 邻 链 (来 自 并 行 回 火 ， 的 配 分 函数 比率 的 桥 式 玉 样 
估计 和 跨越 时 间 的 AIS 估 计 组 合 起 来 ， 提 出 一 个 在 每 次 和 代 和 学习 时 估计 
Acad PRA CAT EBD DIE. 


本 章 中 摘 述 的 工具 提供 了 许多 不 同 的 方法 ， 以 解决 难处 理 的 配 分 函数 问 
昨 ， 但 是 在 训练 和 使 用 生成 模型 时 ， 可 能 会 存在 一 些 其 他 问题 ， 其 中 最 
重要 的 是 我 们 接 下 来 会 过 到 的 难以 推 著 的 问题 。 





(1) NCE 也 适用 于 具有 易于 处 理 的 、 不 需要 引入 额外 参数 c 的 配 分 图 数 问 题 。 它 已 经 是 最 令 人 感 
兴趣 的 、 佑 计 具 有 复杂 配 分 函数 模型 的 方法 。 


第 19 划 ”近似 推断 


许多 概率 模型 很 难 训 练 的 原因 是 很 难 进行 推断 。 在 深度 学 习 中 ， 通 常 我 
们 有 一 系列 可 见 变 量 v 和 一 系列 潜 变 量 六 。 推 新 困难 通 利 是 指 难以 计算 
p(h | v) 或 其 期 户 。 而 这 样 的 操作 在 一 些 诸如 最 大 似 然 学习 的 任务 中 往 
往 是 必需 的 。 


许多 仅 合 一 个 隐藏 层 的 简单 图 模型 会 定义 成 多 于 计算 p( 户 | v ) 或 其 期 望 
的 形式 ， 例 如 有 党 限 玻 尔 效 受 机 和 概率 PCA。 不 羊 的 是 ， 大 多 数 具 有 多 层 
往 纪 变量 的 图 异型 的 后 验 分 布 都 很 难处 理 。 对 于 这 些 模型 而 言 ， 精 确 推 
汤 算 法 需要 指数 量 级 的 运行 时 间 。 即 使 一 些 只 有 单 层 的 模型 ， 如 稀 玻 编 
人 码 ， 也 存在 看 这 样 的 问题 。 

在 本 章 中 ， 我 们 将 会 介绍 几 个 用 来 解决 这 些 难以 处 理 的 推断 问题 的 技 
巧 。 和 后 ， 在 第 20 革 中 ， 我 们 还 将 插 述 如 何 将 这 些 拉 巧 应 用 到 训练 其 他 
方法 难以 委 效 的 概率 模型 中 ， 如 深度 信念 网 络 、 深 度 玻 尔 效 受 机 。 


在 深度 学 习 中 难以 处 理 的 推 蒜 问 题 通 利 源 于 结构 化 图 模型 中 淤 变 量 之 间 


IA SPA. ee WBS 19.1 LP. EERE HNE H En ee 
Tc IA) Ae A Ee A VE A, ty Be eT) ik AP Te] “PS ee FE fE] 
AE FEL E “AEE RE YE o 





图 19.1 REFA P E Ah E MIHE W o ea a EF 2 A E a EA. aE 
KE EE FA PRE -CATE SV - 2S LS EKO AE 
IHE. E) DRE TERE REY 半 受 限 波 尔 效 曼 机 Csemi-restricted Boltzmann 

Machine) (Osindero and Hinton, 2008) 。 由 于 存在 大 量 潜 变量 的 团 ， 潜 变量 的 直接 连接 使 得 
后 验 分 布 难以 处 理 。【〔 中 ) 一 个 深度 玻 尔 兹 曼 机 ， 被 分 层 从 而 使 得 不 存在 层 内 连接 ， 由 于 层 之 
间 的 连接 其 后 验 分 布 仍 然 难 以 处 理 。 右 ) A La SN RY] AY PES se T 
在 相互 作用 ， 因 为 每 两 个 潜 变 量 都 是 共 父 。 即 使 拥有 上 图 中 的 某 一 各 结构， 一些 概率 模型 依然 
能 够 获得 易于 处理 的 关于 潜 变 量 的 后 验 分 布 。 如 果 我 们 选择 条 件 概 紊 分布 来 引入 相对 于 图 结构 
摘 述 的 额外 的 独立 性 这 种 情况 也 是 可 能 出 现 的 。 举 个 例子 ， 概 率 PCA 的 图 结构 如 右 图 所 示 ， 然 
— Cr A FE EL EAS FE a es A Ee AR EP A) 依然 能 够 进行 简单 

推断 


19.1 把 推 新 视 作 优化 问题 


精 硝 推 新 问题 可 以 拍 述 为 一 个 优化 问题 ， 有 许多 方法 正 是 由 此 解 关 了 推 
汤 的 困难 。 退 过 近似 这 样 一 个 洪 在 的 优化 问题 ， 我 们 往往 可 以 推导 出 近 
似 推断 算法 。 


为 了 构造 这 样 一 个 优化 问题 ， 假 设 有 一 个 包含 可 见 变量 v 和 潜 变 量 h 的 
概率 模型 。 我 们 希望 计算 观 凤 数据 的 对 数 概 紊 log pv; 6 )。 有 时 候 如 
RIGA h 的 操作 很 费时 ， 会 难以 计算 log p(v ; 6 )。 作 为 蔡 代 ， 
我 们 可 以 计算 一 个 log p(v ; 0 ) 的 下 界 人 L(V, 日 , 9) 。 这 个 下 界 被 称 为 
证 据 下 界 (evidence lower bound, ELBO) 。 这 个 下 界 的 另 一 个 常用 名 
称 是 负 变 分 自由 能 (variational free energy) 。 有 具体 地 ， 这 个 证 据 下 界 
古 这 样 定义 的 : 




















£(v,0,9) = log p(v; 0) — Di (alh | v)llp(h | v;0)) (19.1) 
其 中 gq 十 关于 h 的 一 个 任意 概率 分 布 。 


因为 log p( v L(V, 0, q) 之 间 的 距离 是 由 KL 散 度 来 衡量 的 ， 且 KL 
散 度 总 是 非 负 的 ， 我 们 可 以 发 现 /” 总 是 小 于 等 于 所 求 的 对 数 概率 。 当 
且 仅 当 分 布 q 完 全 相等 于 p( 六 | v) 时 取 到 等 号 。 


令 人 吃惊 的 是 ， 对 于 某 些 分 布 g， 计算/ 可 以 变 得 相当 简单 。 通 过 简单 
的 代数 运算 我 们 可 以 把 / 重 写成 一 个 更 加 简单 的 形式 : 





L(v,6,q) =log p(v; 8) — Dxx(q(h oj)llp(P | v;0)) (19.2) 
E q(h | v) 
= log p(v; 0) — En~ log oth Pat (19.3) 
= log p(v; 0) — En~q log ne (19.4) 

p(v;@) 
=log p(v; 0) — En~allog q(h | v) — log p(h, v; 8) + log p(v; 8) (19.5) 
= — En~allog g(h | v) — log p(h, v; 0)] (19.6) 
thes S UEI RAR EE X : 
L(v, 80,4) = En~allogp(h, v)] + H (q) (19.7) 


对 于 一 个 选择 的 合适 分 布 q 来 说 ，/， 是 容易 计算 的 。 对 任意 分 布 q 的 选 
择 来 说 ，/[ 提供 了 似 然 函数 的 一 个 下 界 。 越 好 地 近似 p( h | v ) 的 分 布 
qh | v)， 得 到 的 下 界 就 越 紧 ， 换 言 之 ， 就 是 与 log p(v ) 更 加 接近 。 当 
qd h | v )=p( h | v ) 时 这 个 近似 是 完美 的 也 意味 着 
L(v,8,q) = log p(v;@). 

因此 我 们 可 以 将 推断 间 题 看 作 找 一 个 分 布 q 使 得 /， 最 大 的 过 程 。 精 确 推 
汤 能 够 在 包含 分 布 p( h | v ) 的 函数 族 中 搜索 一 个 函数 ， 完 美 地 最 大 化 
人 。 在 本 章 中 ， 我 们 将 会 讲 到 如 何 通 过 近似 优化 寻找 分 布 q 的 方法 来 推 
导出 不 同形 式 的 近似 推断 。 我 们 可 以 通过 限定 分 布 q 的 形式 或 者 使 用 并 

不 彻底 的 优化 方法 来 使 得 优化 的 过 程 更 加 高 效 〈 却 更 粗略 ) ， 但 是 优化 
的 结果 是 不 完美 的 ， 不 求 彻底 地 最 大 化 /  ， 而 只 要 显著 地 提升 。 


无 论 我 们 选择 什么 样 的 分 布 g， 人 始终 是 一 个 下 界 。 我 们 可 以 通过 选择 


一 个 更 简单 或 更 复杂 的 计算 过 程 来 得 到 对 应 的 更 松 或 更 紧 的 下 界 。 通 过 
一 个 不 彻底 的 优化 过 程 或 者 将 分 布 q 做 很 强 的 限定 〈 并 且 使 用 一 个 彻底 
的 优化 过 程 》， 我 们 可 以 获得 一 个 很 差 的 分 布 g， 但 是 降低 了 计算 开 
销 。 


19.2 ”期 望 最 大 化 


我 们 介绍 的 第 一 个 最 大 化 下 界 L 的 算法 是 期 户 最 大 化 Cexpectation 
maximization, EM) 算法 。 在 潜 变 量 模型 中 ， 这 是 一 个 非常 常见 的 训练 
算法 。 在 这 里 我 们 描述 Neal and Hinton (1999) 所 提出 的 EM 算法 。 与 大 
多 数 我 们 在 本 间 中 介绍 的 其 他 算法 不 同 的 是 ，EM 并 不 是 一 个 近似 推断 

算法 ， 而 是 一 种 能 够 学 到 近似 后 验 的 算法 。 


EMSA HACIA, BISCAY PA 2 2s FEAL 


e E> (expectation step) : S 0% 表示 在 这 一 步 开 始 时 的 参数 值 。 
对 任何 我 们 想 要 训练 的 〈 对 所 有 的 或 者 小 批量 数据 均 成 也 ) 索引 为 
i 的 训练 样本 vO, Sq h | v)=p(h® | v®; 6 人 WO)。 通 过 这 个 
定义 ， 我 们 认为 q 在 当前 参数 OO 下 定义 。 如 果 我 们 改变 0, MA 
p(h | v; 09) 将 会 相应 地 变化 ， 但 是 q( h | v) 还 是 不 变 并 且 等 于 pP( 
hiv; @), 

M7? (maximization step) : 使 用 选择 的 优化 算法 完全 地 或 者 部 分 
地 关于 0 最 大 化 


y eoa Ba (19.8) 


XT ERER EIR o HER, RATER 
分 布 q 来 最 大 化 让 ， 而 在 另 一 步 中 ， 我 们 更 新 9 KEKEL ， 


基于 浴 变 量 模型 的 随机 柳 度 上 升 可 以 衫 看 作 一 个 EM 算法 的 特例 ， 其 中 
M 步 包括 了 单 识 柳 度 操作 。EM 算 法 的 其 他 变种 可 以 实现 多 次 梯度 操 
作 。 对 一 些 模型 族 来 次 ，M 步 其 全 可 以 直接 推出 解析 解 ， 不 同 于 其 他 方 
法 ， 在 给 定 当前 q 的 情况 下 直接 求 出 最 优 艇 。 


尽管 E 步 采用 的 是 精确 推断 ， 我 们 仍然 可 以 将 EM 算法 视 作 是 某 种 程度 上 
的 近似 推断 。 具 体 地 说 ，M 步 假设 一 个 分 布 q 可 以 被 所 有 的 9 ENE. 
当 M 步 越 来 越 远离 E 步 中 的 0 @ 时 ， 这 将 会 导致 和 真实 的 log p(v ) 之 
间 出 现 差 距 。 圣 运 的 是 ， 在 进入 下 一 个 循环 时 ，E 步 把 这 种 丢 距 义 降 到 
了 0。 


EM 算法 还 包含 一 些 个 同 的 见解 。 育 完 ， 它 包含 了 学 习 过 程 的 一 个 基本 
框 染 ， 束 古 我 们 过 过 更 新 模型 参数 来 提 融 整个 数据 集 的 似 然 ， 其 中 缺失 
变量 的 值 是 通过 后 验 分 布 来 估计 的 。 这 种 特定 的 性 质 并 非 EM 算 法 独 有 
的 。 例 如 ， 使 用 梯度 下 降 来 最 大 化 对 数 似 然 图 数 的 方法 也 有 相同 的 性 
质 。 计 算 对 数 似 然 函 数 的 梯度 需要 对 隐藏 单元 的 后 验 分 布 求 期 望 。EM 
算法 万 一 个 关键 的 性 质 是 当 我 们 移动 到 万 一 个 6 时 ， 我 们 仍然 可 以 使 用 
上 日 的 分 布 dg。 在 传统 机 硕 学 习 中 ， 这 种 特有 的 性 质 在 推导 大 M 步 更 新 时 
候 得 到 了 广泛 的 应 用 。 在 深度 学 习 中 ， 大 多 数 模 型 太 过 于 复杂 以 全 于 在 
最 优 大 M 步 更 狐 中 很 难得 到 一 个 简单 的 解 。 所 以 EM 算法 的 第 二 个 特 
质 ， 更 多 为 其 所 独 有 ， 较 少 被 使 用 。 


19.3 He A Sa Sar tte or A A eh i 0 


我 们 通 利 使 用 推 新 (inference〉 这 个 术语 来 指 代 给 定 一 些 其 他 变量 的 情 
况 下 计算 某 些 变量 概率 分 布 的 过 程 。 当 训练 市 有 洲 变 量 的 概率 模型 时 ， 
我 们 通常 关注 于 计算 p(h | v)。 男 一 种 可 选 的 推断 形式 是 计算 一 个 缺失 
变量 的 最 可 能 值 来 代 蔡 在 所 有 可 能 值 的 完整 分 布 上 的 推 凯 。 在 潜 变 量 模 
型 中 ， 这 意味 看 计算 


h” =argmax p(h| v) (19.9) 
h 


这 被 称 作 最 大 后 验 (Maximum A Posteriori) PEET, tai vKMAPHELT 


MAP 推 断 并 不 被 视 作 一 种 近似 推断 ， 它 只 是 精确 地 计算 了 最 有 可 能 的 一 
fe h* 。 然 而 ， 如 果 我 们 希望 设计 一 个 最 大 化 L (v , h ,q) 的 学 习 过 程 ， 
那么 把 MAP 推 断 视 作 是 输出 一 个 q 值 的 学 习 过 程 是 很 有 帮助 的 。 在 这 种 
情况 下 ， 我 们 可 以 将 MAP 推 断 视 作 是 近似 推 疡 ， 因 为 它 并 不 能 提供 一 个 
最 优 的 q。 


我 们 回 过 头 来 看 看 第 19.1 中 所 摘 述 的 精 硝 推 上 新， 它 指 的 是 关于 一 个 在 


无 限制 的 概率 分 布 族 中 的 分 布 q 使 用 精确 的 优化 算法 来 最 大 化 
L(v,0,q) = Envgllog p(h, v)] + H(q) (19.10) 


我 们 通过 限定 分 布 qg 属 于 某 个 分 布 族 ， 能 够 使 得 MAP 推 新 成 为 一 种 形式 
的 近似 推 亲 。 有 具体 地 说 ， 我 们 令 分 布 q 请 足 一 个 Dirac 分 布 : 


q(h | v) = d(h — u) (19.11) 


这 也 意味 着 现在 我 们 可 以 通过 y 来 完全 控制 分 布 q。 将/ 中 不 随 p 变 
化 的 项 丢 工 ， 我 们 只 需 解 决 一 个 优化 问题 : 


p = arg max log p(h = p, v) (19.12) 
u 


1% EY FMA PHE EBT fa] 


i = arg max p(h | w) (19.13) 
h 


PA Eh BQ Be 8 WE A — SS PEM IE a 2 IZ SBT FOIA TN 
DA, —2 ee FEMAPHEWT STH h*， 男 一 步 是 更 新 0 来 增 大 log p( h* 
， v )。 从 EM 算法 角度 来 看 ， 这 也 是 对 /的 一 种 形式 的 坐标 上 升 ， 交 
PS IK ARAN HEE HE TOR DLA Tg i í. 以 及 通过 参数 更 新 来 优化 关于 0 的 
L ，。 作 为 一 个 整体 ， 这 个 算法 的 正确 性 可 以 得 到 保证 ， 因 为 人 ， 是 log 
分 精 趋 近 于 负 无 务 ， 使 得 这 个 界 会 无 限 地 松 。 然 而 ， 人 为 加 入 一 些 下 的 
噪声 会 使 得 这 个 界 勾 有 了 意义 。 

MAP 推 其 作为 特征 提取 规 以 及 一 种 学 习 机 制 被 广泛 地 应 用 在 了 深度 学 习 
中 。 它 主要 用 于 稀 瑰 编码 模型 中 ，。 


我 们 回 过 涉 来 看 第 13.4 市 中 的 稀 瑰 编码 。 稀 玩 编 码 是 一 种 在 隐 蕊 单元 上 
加 上 了 诱导 确 玩 性 的 先 验 知识 的 线性 因子 的 模型 。 一 个 第 用 的 选择 是 可 
分 解 的 Laplace 先 验 ， 表 示 为 


pie) = > exp(—Alhil) (19.14) 


可 见 的 节操 是 由 一 个 线性 变化 加 上 噪声 生成 的 : 
plv |h)=N(v; Wh +b, 3-'T) (19.15) 


Iph | v ) 难 以 计算 ， 其 至 难以 表达 。 每 一 对 h ; ，h ; 变量 都 是 y 的 
母 节点 。 这 也 意味 着 当 v 可 被 观察 时 ， 图 模型 包含 了 一 条 连接 h; 和 hi 的 
活跃 路 径 。 因 此 p( h | v ) 中 所 有 的 隐藏 单元 都 包含 在 了 一 个 巨大 的 团 
中 。 如 采 是 高 斯 模型 ， 那 么 这 些 相互 作用 关系 可 以 通过 协 方才 矩阵 来 高 
效 地 建 模 。 然 而 稳 朴 型 先 验 使 得 这 些 相互 作用 关系 并 不 服从 高 斯 分 布 。 


分 布 p( x | 玉 ) 的 难处 理性 导致 了 对 数 似 然 及 其 梯度 也 很 难得 到 。 因 此 
我 们 不 能 使 用 精确 的 最 大 似 然 估计 来 进行 和 学习。 取而代之 的 是 ， 我 们 通 
过 MAP 推 邮 以 及 最 大 化 由 以 六 为 中 心 的 Dirac 分 布 所 定义 而 成 的 ELBO 来 
学 习 模 型 参数 。 


如 果 我 们 将 训练 集中 所 有 的 问 量 h HREH, HARARE v 拼 
FEL ZA, UKE V, ABA Pet Ss SV se Sk A Aa BD 


2 
(19.16) 
tJ 


J(H,W) => |H; +Y (V-HW') 
i,j i,j 


JI S SN hin) ES H AG A WIRE AS AR, Ke B 
ASE DAS Ler REFRA H NYE ICH BRR rl 


我 们 可 以 通过 交 蔡 迭代 ， 分 别 关 于 H 和 WwW 最 小 化 J 的 方式 来 最 小 化 J。 
且 两 个 子 问题 都 是 凸 的 。 事 实 上 ， 关 于 W 的 最 小 化 问题 就 是 一 个 线性 
回归 问题 。 然 而 关于 这 两 个 变量 同时 最 小 化 J 的 问题 通常 并 不 是 凸 的 。 


关于 H 的 最 小 化 问题 需要 茶 些 特别 设计 的 算法 ， 例 如 特征 符号 搜索 方 
法 (Lee etal., 2007) 。 

19.4 变 分 推 关 和 变 分 学 习 

我 们 已 经 说 明 过 了 为 什么 证 据 下 界 人。 (v,0,g) 是 log p(v ; 06) 的 一 个 下 


界 ， 如 何 将 推断 看 作 关于 分 布 g 最 大 化 /_ 的 过 程 ， 以 及 如 何 将 学 习 看 作 
关于 参数 0 最 大 化 /的 过 程 。 我 们 也 讲 到 了 EM 算法 在 给 定 了 分 布 q 的 


条 件 下 能 够 进行 大 学 习 步 又 ， 而 基于 MAP 推 断 的 学 习 算 法 则 是 学 习 一 个 
pC h | v) 的 点 估计 而 非 推断 整个 完整 的 分 布 。 在 这 里 我 们 介绍 一 些 变 分 
学 习 中 更 加 通用 的 算法 。 


变 分 学 习 的 核心 思想 就 是 在 一 个 关于 gq 的 有 约束 的 分 布 族 上 最 大 化 / 。 
选择 这 个 分 布 族 时 应 该 考虑 到 计算 亚 , log p(h, v) 的 难 易 度 。 一 个 典 
型 的 方法 就 是 添加 分 布 g 如 何 分 解 的 假设 。 


一 种 常用 的 变 分 和 学习 的 方法 是 加 入 一 些 限制 使 得 q 是 一 个 因子 分 布 : 
gh |v) = IEG | v) (19.17) 


XIR ALE Im ”(mean-field) 方法 。 更 一 般 地 说 ， 我 们 可 以 通过 选择 
分 布 q 的 形式 来 选择 任何 图 模型 的 结构 ， 退 过 选择 变量 之 间 相 互 作用 的 
多 少 来 灵活 地 决定 近似 程度 的 大 小 。 这 种 完全 通用 的 图 模型 方法 被 称 大 
ZF kel (VA 4) FET (structured variational inference) (Saul and Jordan, 
1996) . 


变 分 方法 的 优点 是 ， 我 们 不 十 要 为 分 布 q 设 定 一 个 特定 的 参数 化 形式 。 
我 们 设 定 它 如 何 分 解 ， 之 后 通过 解决 优化 问题 来 找 出 在 这 些 分 解 限制 下 
最 优 的 概率 分 布 。 对 离散 型 潜 变 量 来 说 ， 这 意味 看 我 们 使 用 传统 的 优化 
技巧 来 优化 描述 分 布 4 的 有 限 个 变量 。 对 连续 型 淤 变量 来 说 ， 这 意味 独 
我 们 使 用 一 个 被 称 为 变 分 法 的 数学 分 文 工 具 来 解决 函数 空间 上 的 优化 问 
题 。 然 后 决定 哪 一 个 函数 来 表示 分 布 g。 变 分 法 是 “ 变 分 学 习 ” 或 者 “ 变 分 
FEE DDT? 1k HE 44 ERA, JS EP SPSS ec ce Fs BLE BO IF CL H N 
Wo Sa BESET IN, ARONA i BS A Lie eR, Ze 
PHAR A HITR. RITR is BEE PA GUA] OP AE» TAS RS M 
个 特定 的 能 够 精确 近似 原 后 验 分 布 的 分 布 q。 


AA (v,0,g) 被 定义 成 log p(v;0)-Dxi (q(h | v)ip(h | v;@)), 
我 们 可 以 认为 关于 q 最 大 化 [的 问题 等 价 于 (关于 gq) 最 小 化 D kr (qh 
| v jlp(h | v ))。 在 这 种 情况 下 ， 我 们 要 用 gq 来 拟 合 p。 然 而 ， 与 以 前 的 
方法 不 同 ， 我 们 使 用 KEL 散 上 度 的 相反 方 同 来 拟 合 一 个 近似 。 当 我 们 使 用 
最 大 似 然 估计 来 用 模型 拟 合 数据 时 ， 我 们 最 小 化 D ki (P data IP moder Je HE 
图 3.6 所 示 ， 这 意味 着 最 大 似 然 或 励 模 型 在 每 一 个 数据 达到 高 概率 的 地 


方 达 到 高 概率 ， 而 基于 优化 的 推 新 则 或 励 了 q 在 每 一 个 真实 后 验 分 布 概 
率 低 的 地 方 概率 较 小 。 这 两 种 基于 KL 散 度 的 方法 都 有 各 自 的 优点 与 缺 
点 。 选 择 哪 一 种 方法 取决 于 在 具体 每 一 个 应 用 中 哪 一 种 性 质 更 受 偏好 。 
在 基于 优化 的 推 半 问题 中 ， 从 计算 角度 考虑 ， 我 们 选择 使 用 D yy, (q( h 
| v)p(h | v)。 有 具体 地 说 ， 计 算 D (q(h | v)pCh | v)) 涉 及 计算 分 
布 q 下 的 期 望 。 所 以 通过 将 分 布 q 设 计 得 较为 简单 ， 我 们 可 以 简化 求 所 需 
要 的 期 组 的 计算 过 程 。KL 敬 度 的 相反 方 同 需 要 计算 真实 后 验 分 布下 的 
期 望 。 因 为 真实 后 验 分 布 的 形式 是 由 模型 的 选择 决定 的 ， 所 以 我 们 不 能 
设计 出 一 种 能 够 精确 计算 Dr (pC | vah | v)) 的 开销 较 小 的 方法 。 


19.41 离散 型 六 变量 


关于 离散 型 潜 变量 的 变 分 推断 相对 来 说 比较 直接 。 我 们 定义 一 个 分 布 

q， 通 常 分布 q 的 每 个 因子 都 由 一 些 离散 状态 的 可 查询 表格 定义 。 在 最 简 
单 的 情况 中 ， h 是 二 值 的 并 且 我 们 做 了 均值 场 假定 ， 分 布 q 可 以 根据 每 
一 个 h ; 分 解 。 在 这 种 情况 下 ， 我 们 可 以 用 一 个 向 量 访 来 参数 化 分 布 q， 
jy 的 每 一 个 元 素 都 代表 一 个 概率 ， 即 q(j = 1 | v) = Îi 


在 确定 了 如 何 表示 分 布 q 以 后 ， 我 们 只 需要 优化 它 的 参数 。 在 离散 型 洪 
变量 模型 中 ， 这 是 一 个 标准 的 优化 问题 。 基 本 上 分 布 q 的 选择 可 以 通过 
任何 优化 算法 解决 ， 比 如 梯度 下 降 算 法 。 
因为 它 在 许多 学 习 算 法 的 内 循环 中 出 现 ， 所 以 这 个 优化 问题 必须 可 以 很 
快 求解 。 为 了 追求 速度 ， 我 们 通常 使 用 特殊 设计 的 优化 算法 。 这 些 算法 
通常 能 够 在 极 少 的 循环 内 解决 一 些小 而 简单 的 问题 。 一 个 常见 的 选择 是 
使 用 不 动 点 方程 ， 换 句 话 说， 就 是 解 关 于 几 ; 的 方程 
ð 
ðh, 
我 们 反复 地 更 新 志 不 同 的 元 素 直到 满足 收敛 准则 。 
为 了 具体 化 这 些 摘 述 ， 我 们 接 下 来 会 讲 如 何 将 变 分 推 斯 应 用 到 二 值 稀 下 


Hat's (binary sparse coding) 模型 (这 里 我 们 所 摘 述 的 模型 是 Henniges 
et al. (2010) 提出 的 ， 但 是 我 们 灯 用 了 传统 、 通 用 的 均值 场 方法 ， 而 





L=0 (19.18) 


ET 种 特殊 设计 的 算法 ) Pe AEE e, A 

望 完 全 了 解 我 们 摘 述 过 的 变 分 推 闻 和 变 分 学 习 高 级 概念 描述 的 恋 者 所 
准备， 而 对 于 并 不 计划 推导 或 者 实现 变 分 学 习 算 法 的 谈 者 来 说 ， 可 以 放 
心跳 过 ， 直 接 了 唤 读 下 一 节 ， 这 并 不 会 遗漏 新 的 高 级 概念 。 建 议 那些 从 事 
二 值 黎 下 编 但 研 究 的 谈 者 可 以 重新 看 一 下 第 3.10 节 中 摘 述 的 一 些 经 间 在 
概率 模型 中 出 现 的 有 用 的 函数 性 质 。 我 们 在 推导 过 程 中 随意 地 使 用 了 这 
些 性 质 ， 并 没有 特别 强调 它们 。 


在 二 值 稀 玻 编码 模型 中 ， 输 入 t) C RP ， 是 由 模型 通过 添加 高 斯 咒 
rt r 每 一 个 成 分 可 以 是 开 或 者 
FAW, MDa hak 7th E{0, 1}™: 

p(hi = 1) = a(bi) (19.19) 

plv | h) =N(v; Wh, 3~*) (19.20) 


HE bore PS A WS a Se Woe PS AI I EE, B 
是 一 个 可 以 学 习 的 对 角 精 度 矩 阵 。 


使 用 最 大 似 然 来 训练 这 样 一 个 模型 需要 对 参数 进行 求 导 。 我 们 考虑 对 其 
中 一 个 侦 置 进行 求 导 的 过 程 : 





£ log p(w) (19.21) 
Ji 
2 p(v 
= nt (19.22) 
(Av 
oe (19.23) 
_ Obi dun P(A)p(v |h) 
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P(e | b) 2 p(h) 





(19.25) 
p(v) 

eS. 
æ P(A) ; 
=X p(h | v) lh (19.26) 

h 
0 ‘ 

=Enwnp(h\v) Əb. log p(h) (19.27) 


这 需要 计算 p( h | v REVERB. ÆRE, ph | v ) 是 一 个 很 复杂 的 
分 布 。 关 于 p( h ，v ) 和 p( h | v) 的 独 结 构 可 以 参考 图 19.2。 隐 羧 单元 的 
后 验 分 布 对 应 的 是 关于 隐 首 单元 的 完全 图 ， 所 以 相对 于 其 力 算 法 ， 花 量 
消去 算法 并 不 能 有 助 于 提高 计算 期 望 的 效率 。 








图 19.2 AP TC eS Aa. E p(P,vy) 的 图 结构 。 要 注意 边 是 有 后 
的 ， 每 两 个 隐藏 单元 都 是 每 个 可 见 单 元 的 共 父 。( 右 ) p(h,v) 的 图 结构 。 为 了 解释 共 父 之 间 的 
活跃 路 径 ， 后 验 分 布 所 有 隐藏 单元 之 间 都 有 这 





取而代之 的 是 ， 我 们 可 以 应 用 变 分 推 亲 和 芝 分 学 习 来 解决 这 个 难 操 
我 们 可 以 做 一 个 均值 场 近 似 : 
q(h | v) = IEG |v) (19.28) 


二 值 稀疏 编码 中 的 潜 变 量 是 二 值 的 ， 所 以 为 了 表示 可 分 解 的 q 我 们 假设 
对 m 个 Bernoulli 分 布 dh ; | v ) 建 模 。 表 示 Bernoulli 分 布 的 一 种 很 目 然 的 
方法 是 使 用 一 个 概率 向 量 册 ， ， 满 足 q(h; |v) = 应 。 为 了 避免 计算 中 
的 误差 ， 比 如 说 计算 log h; NM, Bley, 添加 一 个 约束 ， 即 刀 ; 不 等 于 0 


或 者 1。 


我 们 将 会 看 到 变 分 推断 方程 理论 上 永远 不 “会 赋予 为 0 或 者 1。 — 
软件 实现 过 程 中 ， 机 融 的 舍 入 误 弄 会 导致 0 或 者 1 的 值 。 在 二 值 稀 蚊 编码 
的 软件 实现 中 ， 我 们 布 思 县 使 用 一 个 没有 限制 的 变 分 makina ead 
RAP, 三 o(z) 来 获得 h 。 因 此 通过 使 用 等 式 logo(z ; \=-C(-z ; ) 来 建立 
sigmoid 函 效 和 softplus 函 数 的 关系 ， 我 们 可 以 放心 地 在 计算 机 上 计算 


log h; ° 


在 开始 二 值 稀 距 编码 模型 中 变 分 学 习 的 推 寻 时 ， 我 们 首先 说 明了 均值 场 
近似 的 使 用 可 以 使 得 学 习 过 程 更 加 价 单 。 


证 据 下 界 可 以 表示 为 


L(v,0,gq) ( 
=Ep~allog p(h, v)] + H(q) ( 
=Eh~allog p(h) + log p(v | h) — log q(h | v)] (19.31 

( 


=En~g| > log p(h:) +) log p(vi | h) — X log q(h; | v)| 
7 q=. g=, 





= -> 区 (log a(b;) — log h;) 十 (1 一 h; i)(log o(—b;) — log(1 一 h; :))| (19.33) 
+ Eirug 3 log int 一 win (19.34) 
= -> 区 (log o(b;) — log ħi) + (1 — ha) (log o(—b;) — log(1 — hi :))| (19.35) 


a >? Jaf z =H CG — 2v; Wi:h air >. [wh A >. Wig Wiata] )| (19.36) 
j kj 


尽管 这 些 方程 从 美学 观点 来 看 有 些 不 尽 如 人 意 。 它 们 展示 了 ”可 以 被 
表示 为 少量 简单 的 代数 运算 。 因 此 ， 证 据 下 界 /” 是 易于 处 理 的 。 我 们 
可 以 把 / 看 作 难 以 处 理 的 对 数 似 然 函数 的 一 个 普 代 。 


原则 上 说 ， 我 们 可 以 使 用 关于 v 和 hh 的 梯度 上 升 。 这 会 成 为 一 个 推断 和 
学 习 算法 的 完美 组 合 。 但 是 ， 由 于 两 个 原因 ， 我 们 往往 不 这 么 做 。 第 一 
点 ， 对 每 一 个 v 我 们 需要 存储 名 。 我 们 通常 更 加 偏向 于 那些 不 需要 为 每 
一 个 样本 都 准备 内 存 的 算法 。 如 果 我 们 需要 为 每 一 个 样本 都 存储 一 个 动 
态 更 新 的 向 量 ， 使 得 算法 很 难处 理 几 十 亿 的 样本 。 第 二 个 原因 就 是 为 了 


能 够 识别 v 的 内 容 ， 我 们 希望 能 够 有 能 力 快速 提取 特征 万 。 在 实际 应 用 
场景 中 ， 我 们 需要 在 有 限时 间 内 计算 出 角 。 

由 于 以 上 两 个 原因 ， 我 们 通常 不 会 采用 梯度 下 降 来 计算 均值 场 参数 捅 。 
取而代之 的 是 ， 我 们 使 用 不 动 点 方程 来 快速 估计 。 

不 动 点 方程 的 核心 思想 是 ， 我 们 寻找 一 个 关于 h 的 局 部 极 大 点 ， 满 足 
ViL(v.0.h) =0 。 我 们 无 法 同时 高 效 地 计算 所 有 及 的 元 素 。 然 而 ， 
我 们 可 以 解决 单个 变量 的 问题 





o a 
—L(v,0,h) =0 19.37 
-= L(v, 8 h) (19.37) 


我 们 可 以 迭代 地 将 这 个 解 应 用 到 i 二 1，...，m， 然 后 重复 这 个 循环 直到 
我 们 满足 了 收敛 准则 。 和 营 见 的 收敛 准则 包含 了 当 整 个 循环 所 改进 的 不 
超过 预 设 的 容 兰 量 时 停止 ， 或 者 是 循环 中 改变 的 六 不 超过 未 个 值 时 停 
ie 

ERZA A, TERI Ao Re Pe EERE 
分 推断 的 通用 算法 。 为 了 使 它 更 加 具体， 我 们 详细 地 讲 一 下 如 何 推导 出 
二 值 稀 玖 编码 模型 的 更 新 过 程 。 

I 我 们 给 出 了 对 所， 的 导数 表达 式 。 为 了 得 到 这 个 表达 式 ， 我 们 将 
TL (19.36) 代入 到 式 (19.37) 的 左边 : 





ð i 
一 一 人 U; A h 19.38 
ah, ( ) (19.38) 
9 a _ _ _ 
=—— | D [sllog (5;) — log hy) + (1 — hj) log o( by) — log(1 一己 (19.39) 
tL j=l 
p ; | bi _ 2 一 207 Wjh+ 》 |W? khk +X WrWirheh (19.40) 
9 0g p= J Uj Uj Ai bi Uk j,k W GLUE . 
j=1 k 1 天 大 
= log o(b;) — log h; — 1 + log(1 — hij + 1 — log o(—b;) (19.41) 
n 1 n 
+), |B (am = 5 Wii -X Wjx Whe) (19.42) 
so) hots 





s a 1 i 
=b; — log h; + log(1 — ħi) + v' BW; — < WBW. iY WL BW. ih; (19.43) 
jFt 


为 了 应 用 固定 点 更 新 的 推断 规则 ， 我 们 通过 令 式 (19.43) STORM, 


A 1 m 
hi=olb+v BW.: - -W BW.:— Y W.BW.ih; (19.44) 
’ 9 sat ) ey | ’ J 
jz1 


此 时 ， 我 们 可 以 发 现 图 模型 中 的 推 灯 和 循环 神经 网 络 之 间 存 在 着 紧 密 的 
联系 。 上 其 体 地 说 ,均值 场 不 动 点 方程 定义 了 一 个 人 循环 神经 网 络 。 这 个 神 
经 网 络 的 任务 就 是 完成 推 上 新 。 我 们 已 经 从 模型 描述 的 角度 介绍 了 如 何 推 
号 这 个 网 络 ， 但 是 直接 训练 这 个 推断 网 络 也 是 可 行 的 。 有 关 这 种 思路 的 
一 些 想 法 在 第 20 章 中 有 上 所 摘 述 。 


在 二 值 稀 朴 编 码 模 型 中 ， 我 们 可 以 发 现 式 〈19.44) 中 描述 的 循环 网 络 

连接 包含 了 根据 相 邻 隐藏 单元 变化 值 来 反复 更 新 当前 隐 茂 单元 的 操作 。 

得 入 层 通常 给 隐藏 单元 发 送 一 个 固定 的 信息 mw 8 三” ， 然 而 隐藏 单元 
不 断 地 更 新 互相 传送 的 信息 。 具 体 地 说 ， 当 hh， 和 h; 两 个 单元 的 权重 同 
量 平 行 时 ， 它 们 会 互相 抑制 。 这 也 是 一 种 形式 的 竞争 一 一 两 个 解释 输入 
的 隐藏 单元 之 间 ， 只 有 一 个 解释 得 更 好 的 才 被 允许 继续 保持 活跃 。 在 二 
值 稀疏 编码 的 后 验 分 布 中 ， 均 值 场 近 似 试图 捕获 到 更 多 的 相 消 解释 相互 
作用 ， 从 而 产生 了 这 种 竞争 。 事 实 上 ， 相 消解 释 效 应 会 产生 一 个 多 峰值 
的 后 验 分 布 ， 以 至 于 如 果 我 们 从 后 验 分 布 中 采样 ， 一 些 样本 在 一 个 单元 
是 活跃 的 ， 其 他 的 样本 在 另 一 个 单元 活跃 ， 只 有 很 少 的 样本 能 够 两 者 都 
处 于 活跃 状态 。 不 等 的 是 ， 相 消解 释 作 用 无 法 通过 均值 场 中 因子 分 布 q 

来 建 模 ， 因 此 建 模 时 均值 场 近 似 只 能 选择 一 个 峰值 。 这 个 现象 的 一 个 例 
子 可 以 参考 图 3.6。 


我 们 将 式 (19.44) 重 与 成 等 价 的 形 却 来 揭示 一 些 深 层 的 含义: 
h; =g C (v = >. Wgh) 8 W. i 一 > WB wa) (19.45) 
j#Ft 


在 这 种 新 的 形式 中 ， 我 们 可 以 将 v 一 We yhy 看 作答 入 ， 而 不 是 v 
. 因此 ， 我 们 可 以 把 第 i 个 单元 视 作 给 定 其 他 单元 编码 时 给 v 中 的 剩余 
误差 编码 。 由 此 我 们 可 以 将 稀疏 编码 视 作 一 个 选 代 的 自 编码 器 ， 将 输入 
反复 地 编码 解码 ， 试 图 在 每 一 轮 迭 代 后 都 能 修复 重 构 中 的 误差 。 


在 这 个 例子 中 ， 我 们 已 经 推导 出 了 每 一 次 更 新 单个 结 点 的 更 新 规则 。 如 
果 能 够 同时 更 新 更 多 的 结 点 ， ABs ES DGS o 某 些 图 模型 ， 比 如 深度 
IRZ EL, RAJE AIETE E h HAVES It. MENE, AER 
WINER ET WML E RAE PERII E 
(damping) WAAR. EEMI , 对 万 中 的 每 
一 个 元 系 我 们 都 可 以 解 出 最 优 值 ， 然 后 对 于 所 有 的 值 都 在 这 个 方 同上 移 
动 一 小 步 。 这 个 方法 不 能 保证 每 一 步 都 能 增加 人。 ， 但 是 对 于 许多 模型 
都 很 有 效 。 关 于 在 信息 传输 算法 中 如 何 选择 同步 程度 以 及 使 用 衰减 守 略 
可 以 参考 Koller and Friedman (2009) 。 


19.4.2 AVF 


在 继续 介绍 变 分 学 习 之 前 ， 我 们 有 必要 简单 地 介绍 一 种 变 分 学 习 中 重要 
的 数学 工具 : 变 分 法 Ccalculus of variations) 。 


许多 机 器 学 习 的 技巧 是 基于 寻找 一 个 输入 向 量 肪 C IR” 来 最 小 化 函 
数 J( 0 )， 使 得 它 取 到 了 最 小 仁 。 这 个 步 又 可 以 利用 多 元 微 积 分 以 及 线性 代 
数 的 知识 找到 满足 Ve.1(O) = 0 的 临界 点 来 完成 。 在 某 些 情况 下 ， 
我 们 希望 能 够 解 一 个 函数 f( x )， 比 如 当 我 们 希望 找到 一 些 随机 变量 的 概 
率 密度 图 数 时 。 正 是 变 分 法 能 够 让 我 们 完成 这 个 目标 。 


pk AEA PRI A MK Az ek (functional) J Lf] 。 正 如 许多 情况 下 对 一 个 
PRIA SSF AT) Se WY 70 RAZ Bt A i SP RATE DE PS ie Re 
(functional derivative) ， 即 在 任意 特定 的 x 1E, HAZKA Lf] 求 天 
TAZ a ) 的 导数 ， 这 也 被 称 为 变 分 导数 (variational derivative) 。 泛 


函 ] 的 关于 函数 {在 点 x i IES PC J. 
完整 正式 的 泛 函 导数 的 推导 不 在 未 书 的 范围 之 内 。 对 于 我 们 的 目标 而 
言 ， 了 解 可 微分 函数 ff x ] 以 及 带 有 连续 导数 的 可 微分 函数 gfy x ) 就 足够 


| 


0 
Hw | ot (@)-a)de = Zolle), a) (19.46) 


为 了 使 上 述 等 式 更 加 直观 ， 我 们 可 以 把 f( x ) 看 作 一 个 有 着 无 穷 不 可 数 多 
元 素 的 向 量 ， 由 一 个 实数 向 量 x 表示 。 在 这 里 (看 作 一 个 不 完全 的 介 
绍 ) ， 这 种 关系 式 中 描述 的 泛 函 导数 和 向 量 @ 和 想见 的 导数 相同 : 


o , O 
a j a 


FES MN La CR EE REH SECA EY ik i ha KB H 
方程 (Euler-Lagrange Equation) ， 它 能 够 使 得 g 不 仅 依 赖 于 f 的 导数 ， 
而 且 也 依赖 于 {f 的 值 。 但 是 在 本 书 中 我 们 不 需要 这 个 通用 版 本 。 


为 了 关于 一 个 同 量 优化 系 个 函数 ， 我 们 求 出 了 这 个 函数 天 于 这 个 问 量 的 
标 度 ， 然 后 找 这 个 梯度 中 每 一 个 元 系 部 为 0 的 把 。 类 似 地 ， 我 们 可 以 通 
过 村 找 一 个 函数 便 得 泛 函 导数 的 每 个 点 都 等 于 0， 从 而 来 优化 一 个 沁 
PR] 0 


下 面 介绍 一 个 该 过 程 如 何 运 行 的 例子 ， 我 们 考虑 寻找 一 个 定义 在 
r C R 上 的 有 最 大 微分 蚁 的 概率 密度 函数 。 我 们 回 过 头 来 看 一 下 一 
个 概率 分 布 P(x) 的 粮 ， 定 义 如 下 ; 


H|p] = —E, log p(x) (19.48) 
对 于 连续 的 值 ， 这 个 期 望 可 以 被 看 作 一 个 积分 : 
Alp] = — | pologplzjaz (19.49) 


RATA Be fl MAR Fe P(X) ACH Lp] » AVA AB PER GEG AR FY 
HED 22 — TS ZB TAD oA SRR ee, BAT rs BE Pi hs H 
乘 子 来 添加 一 个 分 布 PCO 积 分 值 为 1 的 约束 。 同 样 地 ， 当 方差 增 大 时 ， 
烂 也 会 无 限制 地 增加 。 因 此 ， 寻 找 哪 一 个 分 布 有 最 大 燃 这 个 问题 苹 没 有 
意义 的 。 但 是 ， 在 给 定 固定 的 方差 c “ IN, Fae R— Pa A 
分 布 。 最 后 ， 这 个 问题 还 是 炙 定 的 ， 因 为 在 不 改变 精 的 条 件 下 一 个 分 布 
可 以 被 随 间 地 改变 。 为 了 获得 一 个 唯一 的 解 ， 我 们 再 加 一 个 约束 : 分 布 
的 均值 必须 为 n。 那 么 这 个 问题 的 拉 格 明日 沁 函 如 下 : 


Lip] = »1 ( J vous B 1) + Aa(E[z] — u) + A3(E[(a — u)*] — o”) + Hip] (19.50) 


一 J (Nip(z) + Agp(x)x + Msp(z)(z — p)? — p(z) log p(x) ) dex 一 (19.51) 
NSAP psy Mons BAA Fe RIEZ PR PSE FO: 


0 2 
Va, TE L = à + Aen + à3(x£ — u) og p(x) = 0 (19.52) 


IRS RE et VERT PO AZ PBZ TL HS RBS REH Ee, RA] 
可 以 得 到 


p(x) = exp (A, + Age + àz (£ — pj“ — 1) (19.53) 


我 们 并 没有 直接 假设 PCO 取 这 种 形式 ， 而 是 通过 最 小 化 泛 函 从 理论 上 得 
到 了 这 个 P(x) 的 表达 式 。 为 了 解决 这 个 最 小 化 问题 ， 我 们 需要 选择 和 的 
值 来 确保 所 有 的 约束 都 能 够 满足 。 我 们 有 很 大 的 自由 去 选择 和 。 因 为 只 
要 满足 约束 ， 拉 格 明 日 关于 入 这 个 变量 的 梯度 就 为 0。 为 了 满足 所 有 的 约 
束 ， 我 们 可 以 令 


À1 一 一 log OV 27 .A9 一 (). À3 = 十 
， 从 而 得 到 j 
p(x) = N (z; p, 0°) (19.54) 


这 也 是 当 我 们 不 知道 真实 的 分 布 时 ， 总 古 使 用 正 态 分 布 的 一 个 原因 。 因 
为 正 态 分 布 拥有 最 大 的 燃 ， 我 们 通过 这 个 假定 来 你 证 了 最 小 可 能 量 的 绽 
ise 


Ss Teg WY hk H i RIM HP EL ee “PT FE I Ze, RITR 
PERR Bl] — SY Dy tee AI TI Fo A Ee ZC Ii EBS BBE ER BET ZF 
的 呢 ? 为 什么 我 们 无 法 友 现 对 应 看 极 小 点 的 第 三 个 临界 后 呢 ? 原因 是 没 
有 一 个 特定 的 函数 能 够 达到 最 小 的 燃 值 。 当 函数 把 越 多 的 概率 密度 加 到 
x 二 ph 十 0 和 x 二 hp-o 两 个 皇上 ， 越 少 的 概率 密度 到 其 他 点 上 时 ， 它 们 的 焕 
值 会 减少 ， 而 方 关 却 不 变 。 然 而 任何 把 所 有 的 权重 都 放 在 这 两 点 的 函数 
的 积分 都 不 为 1， 人 不 是 一 个 有 效 的 概率 分 布 。 所 以 不 存在 一 个 最 小 燃 的 
概率 密度 函数 ， 束 像 不 存在 一 个 最 小 的 正 实 数 一 样 。 然 而 ， 我 们 发 现存 


在 一 个 收敛 的 概率 分 布 的 序列 ， 收 敛 到 权重 都 在 两 个 点 上 。 这 种 情况 能 
够 退化 为 混合 Dirac 分 布 。 因 为 Dirac 分 布 并 不 是 一 个 单独 的 概率 密度 辑 

4X, PUA Diracay ti BB Dirac Ai FFAS BE MT DY. PR A STAD Fa o 

所 以 对 我 们 来 说 ， 当 寻找 一 个 泛 图 导数 为 0 的 图 数 空间 的 点 时 ， 这 些 分 

布 是 不 可 见 的 。 这 束 是 这 种 方法 的 局 限 之 处 。 诺 如 Dirac2 分 布 这 样 的 分 

布 可 以 通过 其 他 方法 被 找到 ， 比 如 可 以 先 猜测 一 个 解 ， 然 后 证 明 它 是 满 
足 条 件 的 。 


19.4.3 ”连续 型 潜 变 量 


当 我 们 的 图 模型 包含 连续 型 潜 变 量 时 ， 仍 然 可 以 通过 最 大 化 人。 进行 变 
分 推 师 和 变 分 学 习 。 然 而 ， 我 们 需要 使 用 变 分 法 来 实现 关于 q( h | v ) 最 


KEL 


在 大 多 数 情 况 下 ， 研 究 者 并 不 需要 解 次 任何 变 分 法 的 问题 。 取 而 代 之 的 
旦 ， 均 值 场 固定 点 迭代 更 新 有 一 个 通用 的 方程 。 如 条 我 们 做 了 均值 场 近 
Ws 


= [Lac | v) (19.55) 


Ff AX EAT Aji qh; | vy), BA NR ra Ze Cop HAE a A A 
变量 的 概率 值 不 为 0， 我 们 就 可 以 通过 归 一 化 下 和 面 这 个 未 归 一 的 分 布 


q(h; | v) = exp (En sath eia log p(v, h)) (19.56) 


来 得 到 最 优 的 qhi | v )。 在 这 个 方程 中 计算 期 望 束 能 得 到 正确 的 q(h; | 
V ) 的 表达 式 。 我 们 只 有 在 布 望 提出 一 种 新 形式 的 变 分 竺 习 算 法 时 才 需 要 
使 用 变 分 法 来 耳 接 推 导 q 的 函数 形式 。 式 “19.56) 给 出 了 适用 于 任何 概 
率 模型 的 均值 场 近 似 。 


TL (19.56) 是 一 个 不 动 点 方程 ， 对 每 一 个 i 它 都 被 从 代 地 反复 使 用 直到 
收敛 。 然 而 ， 它 还 包含 着 更 多 的 信息 。 它 还 包含 了 最 优 解 取 到 的 泛 函 形 
式 ， 无 论 我 们 是 个 能 够 通过 不 动 点 方程 来 解 出 它 。 这 和 意味 看 我 们 可 以 利 
用 方程 中 的 泛 函 形式 ， 把 其 中 一 些 值 当成 参数 ， 然 后 通过 任何 我 们 想 用 
的 优化 算法 来 解决 这 个 问题 。 


我 们 拿 一 个 简单 的 概率 模型 作为 例子 ， 其 中 潜 变 量 满足 及 c R2 
见 变 量 只 有 一 个 v。 假 设 p(h) = N (h; 0, I) 以 及 
plv | h) = N(v; w! hh;1)， 我们 可 以 积 掉 hh 来 简化 这 个 模型 ， 结 
果 是 关于 v 的 高 斯 分 布 。 这 个 模型 本 身 并 不 有 趣 。 只 是 为 了 说 明 变 分 法 
如 何 应 用 在 概率 建 模 之 中 ， 我 们 才 构 造 了 这 个 模型 。 


忽略 归 一 化 常数 时 ， 真 实 的 后 验 分 布 如 下 ; 


p(h | v) (19.57) 
xp(h,v (19.58) 
=p(h1)p(h2)p(v | h) (19.59) 
1 

œx exp (一 zli + hå + (v — hıwı — hzaw2)’]) (19.60) 
1 

= exp ( = zli + hs tar 4 hw? 十 hows — Zuhiwi — 2vhewe + 2hıwıhowə]) (19.61) 


在 上 式 中 ， 我 们 发 现 由 于 市 有 h 1 、h ， 乘 积 项 的 存在 ， 真 实 的 后 验 并 不 
能 关于 hi ha 分 解 。 


应 用 式 〈19.56) ， 我 们 可 以 得 到 


gd(hi | v) (19.62) 
= exp (os log p(w, h)) (19.63) 
= exp ( 一 二 howathol)[ + ho +v” + hiwi + hows (19.64) 

— 2vh wy, — 2vhewe + 2h wy hows] ) (19.65) 


从 这 里 ， 我 们 可 以 发 现 其 中 我 们 只 需要 从 q(h 。 | v ) 中 获得 两 个 有 效 
fi: Eps vq(h|v) [22] MER vq no) [h3] 。 把 这 两 项 记 作 (及 2) 和 (有 h35) 


m ] 
Gg(hi | v) = exp(—5[hj + (hg) + u* + hiwr + (hs) ws (19.66) 
= 2vh iw, = 2u(h2) we 十 2h wy (h2)wg]) (19.67) 


从 这 里 ， 我 们 可 以 发 现 0 的 泛 函 形式 满足 高 斯 分 布 。 因 此 ， 我 们 可 以 得 
到 q(h | v)SN (h; NB ) ， 其 中 jy 和 对 角 的 B 是 变 分 参数 ， 我 们 可 


以 使 用 任何 方法 来 优化 它 。 有 必要 再 强调 一 下 ， 我 们 并 没有 假设 q 是 一 
个 高 斯 分 布 ， 这 个 高 斯 的 形式 是 使 用 变 分 法 来 关于 分 布 q 最 大 化 人 而 推 
导出 来 的 。 在 不 同 的 模型 上 应 用 相同 的 方法 可 能 会 得 到 不 同 泛 函 形式 的 
分 布 q。 

当然 ， 上 述 模型 只 是 为 了 说 明 情 况 的 一 个 简单 例子 。 深 度 学 习 中 关于 弯 
分 学 习 中 连续 型 变量 的 实际 应 用 可 以 参考 Goodfellow et al. (2013f) 。 


19.4.4 学 习 和 推断 之 间 的 相互 作用 


在 学 习 算 法 中 使 用 近似 推 其 会 影响 学 习 的 过 程 ， 反 过 来 学 习 的 过 程 也 会 
影 啊 推 断 算 法 的 准确 性 。 


具体 来 说 ， 训 练 算法 倾 同 于 参 使 得 近似 推 凯 算法 中 的 近似 假设 变 得 更 加 
真实 的 方 回 来 适应 模型 。 当 训练 参数 时 ， 变 分 学 习 增 加 


Er~o log p(v, h) (19.68) 


对 于 一 个 特定 的 v， 对 于 gq( h | vue EKA, EMIS p(h | v 
); 对 于 gq(h | vv) 中 概率 很 小 的 h， 它 减 小 了 p(h | v). 


这 种 行为 使 得 我 们 做 的 近似 假设 变 得 合理 。 如 条 我 们 用 单 峰 值 近 似 后 验 
来 训练 模型 ， 那 么 所 得 共有 真实 后 验 的 模型 会 比 我 们 使 用 精确 推 其 训练 
模型 获得 的 模型 更 接近 单 峰值 。 


因此 ， 估 计 变 分 近似 对 模型 的 破坏 程度 是 很 困难 的 。 存 在 几 种 估计 log 

p(v ) 的 方式 。 通 常 我 们 在 训练 模型 之 后 估计 log p(v ; 6 )， 然 后 发 现 它 
M v, 6 ,q) 的 差距 是 很 小 的 。 从 这 里 我 们 可 以 得 出 结论 ， 对 于 特定 
的 从 学 习 过 程 中 获得 的 8 来 说 ， 变 分 近似 是 很 准确 的 。 然 而 我 们 无 法 下 
接 得 到 变 分 近似 普通 很 准确 或 者 变 分 近似 几乎 不 会 对 学 习 过 程 产生 任何 
负面 影响 这 样 的 结论 。 为 了 准确 衡量 变 分 近似 市 来 的 危害 ， 我 们 需要 知 
道 O = maxg log p(v;@) - L(v,8,q) ~logp(v; 0) 和 
log p(v;8@) < logp(v;@°) 同时 成 立 是 有 可 能 的 。 如 果 存 在 
max, L(v,0 ,gq) 安 ， 即 在 6” 点 处 后 验 分 布 太 过 复杂 使 得 q 分 布 族 
无 法 准确 接 述 ， 那 么 学 习 过 程 永 远 无 法 到 达 9 ”。 这 样 的 一 类 问题 是 很 


难 及 现 的 ， 因 为 只 有 在 我 们 有 一 个 能 够 找到 6” 的 较 好 的 学 习 算法 时 ， 
才能 确定 进行 上 述 的 比较 。 


19.5 ”学 成 近似 推断 


我 们 已 经 看 到 了 推断 可 以 被 视 作 一 个 增加 函数 /” 值 的 优化 过 程 。 显 式 
地 通过 迁 代 方法 〈 比 如 不 动 点 方程 或 者 基于 梯度 的 优化 算法 ) 来 进行 优 
化 的 过 程 通常 是 代价 很 高 且 耗 时 巨大 的 。 通 过 学 习 一 个 近似 推 听 ， 许 多 
推断 算法 避免 了 这 种 代价 。 具 体 地 说 ， 我 们 可 以 将 优化 过 程 视 作 将 一 个 
输入 v 投影 到 一 个 近似 分 布 q* =arg max g (v ，q ) 的 一 个 {的 函数 。 
一 旦 我 们 将 多 步 的 迭代 优化 过 程 看 作 一 个 函数 ， 我 们 可 以 用 一 个 近似 函 
数 为 f(v: 9) 的 神经 网 络 来 近似 它 。 


19.5.1 MEIRA IE 


训练 一 个 可 以 用 v KE h 的 模型 的 一 个 主要 难点 在 于 我 们 没有 一 个 监 
督 训练 集 来 训练 模型 。 给 定 一 个 v ， 我 们 无 法 获知 一 个 合适 的 hh 。 从 vy 
到 上 h 的 映射 依赖 于 模型 族 的 选择 ， 并 且 在 学 习 过 程 中 随 看 9 的 改变 而 变 
化 。 醒 眠 (wake sleep) 算法 (Hinton et al. , 1995b; Frey et al. , 
1996) 通过 从 模型 分 布 中 抽取 v A h 的 样本 来 解决 这 个 问题 。 例 如 ， 在 
有 问 模 型 中 ， 这 可 以 通过 执行 从 大 开始 并 在 v 结束 的 原始 采样 来 高 效 地 
完成 。 然 后 这 个 推断 网 络 可 以 被 训练 来 执行 反 回 的 映射 :预测 哪 一 个 h 
产生 了 当前 的 v 。 这 种 方法 的 主要 缺点 是 ， 我 们 将 只 能 在 那些 在 当前 模 
型 上 有 较 高 概率 的 v 值 上 训练 推 产 网 络 。 在 学 习 早 期 ， 梗 型 分 布 与 数据 
分 布 偏 和 过 较 大 ， 因 此 推断 网 络 将 不 具有 在 类 似 数据 的 样本 上 学 习 的 机 
会 。 

在 第 18.2 和 中， 我 们 看 到 睡眠 做 梦 在 人 类 和 动物 中 作用 的 一 个 可 能 解释 
Fe, (BUS A] AEE BER RF VIA BYE H TT I) a SY BA PRI AC 
负 柳 度 的 负 相 样本 。 生 物 做 梦 的 男 一 个 可 能 解释 是 它 提 供 来 日 p(h，v) 
的 样本 ， 这 可 以 用 于 训练 推断 网 络 在 给 定 v 的 情况 下 预测 h o EREA 
义 上 ， 这 种 解释 比 配 分 函数 的 解释 更 令 人 人 满意。 如果 守 符 卡 罗 算 法 仪 使 
用 棉 度 的 正 相 运行 儿 个 步骤 ， 然 后 仅 对 樟 度 的 负 相 运行 几 个 步骤 ， 那 么 
结 采 通 闻 不 会 很 好 。 人 类 和 动物 通 间 连续 清醒 儿 个 小 时 ， 然 后 连续 睡 看 
几 个 小 时 。 这 个 时 间 表 如 何 文 持 无 问 模 型 的 察 特 卡 多 训练 沿 不 清 楷 。 然 
而 ， 基于 最 大 化 人 的 学 习 算 法 可 以 通过 长 时 间 调 整改 进 q 和 长 期 调整 9 
来 实现 。 如 果 生 物 做 梦 的 作用 是 训练 网 络 来 预测 qg， 那 么 这 解释 了 动物 


如 何 能 够 保持 清醒 几 个 小 时 《它们 清醒 的 时 间 越 长 ， 人 和 log p( v ) 之 
间 的 差距 越 大 ， 但 是 人， 仍然 是 下 限 ) ， 并 且 睡 眠 几 个 小 时 《生成 模型 
AGERA ABIES)» TARE EATEN AN RAE. SS, HERE 
TA AU oe Jeg WEA A E BE HN EH K H A SE ER H ps 
o AF TE BT VE MBL CAPR IZ YR) RE AR 
RRRA FIEKE OJ NN eR ER. TPE DIR A PEE Las 
学 习 社 区 尚未 发 现 的 其 他 目的 。 


19.5.2 ”学 成 推断 的 其 他 形式 


这 种 学 成 近似 推断 全 上 略 已 经 被 应 用 到 了 其 他 模型 中 。Salakhutdinov and 
Larochelle (2010) 证 明了 在 学 成 推 央 网 络 中 的 日 裔 传递 相 比 于 在 深度 
玻 尔 北 受 机 中 的 迭代 均值 场 不 动 点 方程 能 够 得 到 更 快 的 推 由 。 其 训练 过 
程 是 基于 运行 推 师 网 络 的 ， 然 后 运行 一 步 均 值 场 来 改进 其 估计 ， 并 训练 
推断 网 络 来 输出 这 个 更 精细 的 估计 以 代 蔡 其 原始 估计 。 


我 们 已 经 在 第 14.8 太 中 看 到 ， 预 测 性 的 兢 聋 分解 模 型 训练 一 个 浅 层 编码 
侣 网 络 ， 从 而 预测 输入 的 稀 朴 编码 。 这 可 以 被 看 作 目 编码 磺 和 稀 牙 编码 
之 间 的 混合 。 为 模型 设计 概率 语义 是 可 能 的 ， 其 中 编 但 右 可 以 航 视 为 执 
行 学 成 近似 MAP 推 由。 由 于 其 浅 层 的 编码 器 ，PSD 不 能 实现 我 们 在 均值 
场 推 半 中 看 到 的 单元 之 间 的 那 种 竞争 。 然 而 ， 访 问题 可 以 通过 训练 深度 
编码 右 实 现 学 成 近似 推 师 来 补救 ， 如 ISTA 拷 术 (Gregor and LeCun, 
2010b) 。 


近来 学 成 近似 推 戎 已 经 成 为 变 分 目 编 但 夯 形 陈 的 生成 模型 中 的 主要 方法 
之 一 (Kingma, 2013; Rezendeetal., 2014) 。 在 这 种 优美 的 方法 中 ， 
不 需要 为 推断 网 络 构 造 显 式 的 目标 。 反 之 ， 推 断 网 络 仅仅 被 用 来 定义 
EL， 人 然后 调整 推 期 网络 的 参数 来 增 大 £ 。 我 们 将 在 第 20.10.3 节 中 详细 
介绍 这 种 模型 。 


我 们 可 以 使 用 近似 推断 来 训练 和 使 用 很 多 不 同 的 模型 。 其 中 许多 模型 将 
在 下 一 草 中 描述 。 


第 20 章 ”深度 生成 模型 


在 本 章 中 ， 我 们 介绍 几 种 具体 的 生成 模型 ， 这 些 模 型 可 以 使 用 第 16 章 全 
第 19 半 中 出 现 的 技术 构建 和 训练 。 所 有 这 些 模型 在 条 种 程度 上 部 代 表 了 
多 个 变量 的 概率 分 布 。 有 些 模型 允许 显 式 地 计算 概率 分 布 疯 数 。 其 他 栋 
型 则 不 允许 直接 评估 概率 分 布 函 效 ， 但 文 持 隐 却 获 取 分 布 知识 的 操作 ， 
如 从 分 布 中 采样 。 这 些 柑 型 中 的 一 部 分 使 用 第 16 间 中 的 图 模型 语言 ， 从 
图 和 因子 的 角度 拉 述 为 结构 化 概率 模型 。 其 他 的 不 能 人 徐 单 地 从 因 了 于 角度 
摘 述 ， 但 仍然 代表 概率 分 布 。 


20.1 WRK SAL 


玻 尔 效 受 机 最 初 作为 一 种 广义 的 “联结 主义 ?引入 ， 用 来 学 习 二 信 同 量 上 
的 任意 概率 分 布 (Fahlman etal., 1983; Ackley etal., 1985; Hinton et 
al. , 1984b; Hinton and Sejnowski, 1986) 。 玻 尔 效 曼 机 的 变 体 (包含 
其 他 类 型 的 变量 ) 早已 超过 了 原始 玻 尔 效 曼 机 的 流行 程度 。 在 本 节 中 ， 

我 们 人 简要 介绍 二 值 玻 尔 兹 曼 机 并 讨论 训练 模型 和 进行 推 师 时 出 现 的 问 

A. 


我 们 在 d 维 二 值 随机 向 量 x Et0，1} “ 上 定义 玻 尔 兹 曼 机 。 玻 尔 兹 曼 机 
是 一 种 基于 能 量 的 模型 (上 第 16.2.4 市 ) ， 意 味 看 我 们 可 以 使 用 能 量 函 数 
定义 联合 概率 分 布 : 


exp(—E(x)) 
Z 


其 中 EC x ) 是 能 量 函 数 ，Z 是 确保 》” P(£) = 1 的 配 分 函数 。 玻 尔 兹 
曼 机 的 能 量 函 数 如 下 给 出 ; 


P(x) = (20.1) 


E(x) =—-a'Uax—b'a. (20.2) 
HE U pe RA SY A HR, AS. E. 


在 一 般 设 定 下 ， 给 定 一 组 训练 样本 ， 每 个 样本 都 是 n 维 的 。 式 (20.1) 
描述 了 观察 到 的 变量 的 联合 概率 分 布 。 虽 然 这 种 情况 显然 可 行 ， 但 它 限 
制 了 观察 到 的 变量 和 权重 矩阵 描述 的 变量 之 间 相 互 作 用 的 类 型 。 有 具体 来 
说 ， 这 意味 着 一 个 单元 的 概率 由 其 他 单元 值 的 线性 模型 〈 逻 辑 回 归 ) 给 
Pe 


AN 8 PA A EN BE OLS SII, RR BK ENEE ENK. EAA 
PB, RBA 2 RAIL AY Beto, FP Ay A cz TAD AY ry 
阶 交 互 。 正 如 还 加 隐 疾 单元 将 馆 辑 回归 转换 为 MLP， 导 致 MLP 成 为 函数 
的 万 能 近似 袁 ， 有 具有 隐 疾 单元 的 玻 尔 效 曼 机 不 再 局 限于 建 模 变量 之 间 的 
线性 关系 。 相 反 ， 玻 尔 效 曼 机 变 成 了 离散 变量 上 概率 质量 函数 的 万 能 近 
(tlg (Le Roux and Bengio, 2008) 。 


正式 地 ， 我 们 将 单元 x 分 解 为 两 个 子 集 : 可 见 单 元 v 和 潜在 (或 隐藏 ) 
Ah. ERAEN 


E(v,h) =—v'Rv—v'Wh-h'Sh—b'v—-c'h (20.3) 


BUR SNLIN SI BURA BALA ARARE SE TAMA. MA 
IK SNL BS AA HE A Ach EE a I BB, DST EC Ee A AP is BE Zi FS 
18 草 中 的 技术 来 近似 。 


玻 尔 效 曼 机 有 一 个 有 趣 的 性 质 ， 当 基于 最 大 似 然 的 学 习 规 则 训练 时 ， 连 
接 两 个 单元 的 特定 权重 的 更 新 仅 取 雇 于 这 两 个 单元 在 不 同 分 布下 收集 的 
统计 信息 : P model (Y A Piata (v) Pode} (A | V )。 网 络 的 其 余部 分 参 
与 塑造 这 些 统计 信息 ， 但 权 草 可 以 在 完全 不 知道 网 络 其 余部 分 或 这 些 统 
计 信 息 如 何 产 生 的 情况 下 更 新 。 这 意味 看 学 习 规 则 是 “局 部 ”的 ， 这 使 得 
玻 尔 兹 曼 机 有 的 学 习 似 乎 在 茶 种 程度 上 是 生物 学 合理 的 。 我 们 可 以 设想 每 
个 神经 元 部 是 玻 尔 兹 曼 机 中 随机 变量 的 情况 ， 那 么 连接 两 个 随机 变量 的 
轴 突 和 树 突 只 能 通过 观察 与 它们 物理 上 实际 接触 细胞 的 沿 发 模式 来 学 
习 。 特 别 地 ， 正 相 期 间 ， 经 第 同时 激活 的 两 个 单元 之 间 的 连接 会 被 加 
强 。 这 是 Hebbian 学 习 规则 (Hebb, 1949) 的 一 个 例子 ， 经 常 总 结 为 好 
记 的 短语 “fire together, wire together”。Hebbian 学 习 规 则 是 生物 系 
统 学 习 中 最 古老 的 假设 性 解释 之 一 ， 直 至 今天 仍然 有 重大 音义 (Giudice 
etal., 2009) . 


不 仅仅 使 用 局 部 统计 信息 的 其 他 学 习 算 法 似乎 需要 假设 更 多 的 学 习 机 

制 。 例 如 ， 对 于 大 脑 在 多 层 感 知 机 中 实现 的 反 回 传播 ， 似 乎 需要 维持 一 
个 辅助 通信 的 网 络 ， 并 借 此 同 后 传输 梯度 信息 。 己 经 有 和 学 者 (Hinton,， 

2007a; Bengio, 2015) 提出 生物 学 上 可 行 《 和 近似 ) 的 反问 传播 实现 

方案 ， 但 仍然 有 待 验证 ，Bengio (2015) 还 将 梯度 的 反 向 传播 关联 到 类 
似 于 玻 尔 效 曼 机 〈 但 具有 连续 淤 变量 ) 的 能 量 模型 中 的 推断 。 
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FIRR ZK SALES C(harmonium) 2% (Smolensky, 1986) 面 
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16.7.1 节 人 简要 介绍 了 RBM。 在 这 里 我 们 回顾 以 前 的 内 容 并 探讨 更 多 的 细 
节 。RBM 是 包含 一 层 可 观察 变量 和 单 层 潜 变量 的 无 向 概率 图 模型 。 
RBM 可 以 推 登 起 来 “一 个 在 另 一 个 的 顶部 ) 形成 更 深 的 檬 型。 图 20.1 展 
示 了 一 些 例 子 。 特 别 地 ， 图 20.1 (a) 显示 RBM 本 身 的 图 结构 。 它 是 一 
个 二 分 图 ， 观 察 层 或 潜 层 中 的 任何 单元 之 间 不 允许 存在 连接 。 


我 们 从 三 值 版 本 的 受 限 玻 尔 兹 曼 机 开始 ， 但 如 我 们 之 后 所 见 ， 这 还 可 以 
扩展 为 其 他 类 型 的 可 见 和 隐 马 单元 。 


于 正式 地 说 ， 令 观察 层 由 一 组 n 、 个 二 值 随机 变量 组 成 ， 我 们 统称 为 癌 
mv 。 我 们 将 nt 个 二 值 随机 变量 的 海 在 或 隐藏 层 记 为 h 。 


MARERE EH, FERRERAS BEET RERE, RKS 
概率 分 布 由 能 量 函 数 指定 : 


P(v =v,h=h) = Z exp(—B (0. h)) (20.4) 


RBM Be = PACH RZ 4 


E(v,h) =—b'v—c'h—v' Wh (20.5) 
FLA Z xe BPR AIBC ot BB BLA — 6 Fs A: 
E = y X _exp{-E(v, h)} (20.6) 
uv A 
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举 求 和 ) 计算 上 可 能 十 难以 处 理 的 ， 际 非 有 巧妙 设计 的 算法 可 以 利用 概 
率 分 布 中 的 规则 来 更 快 地 计算 Z。 在 受 限 玻 尔 效 曼 机 的 情况 下 ，Long 


and Servedio (2010) EWE ACA ARZEN. MERAY AC KAZ 
意味 看 归 一 化 联合 概率 分 布 P (v) 也 难以 评估 。 





图 20.1 可 以 用 受 限 玻 尔 效 曼 机 构建 的 模型 示例 。 (a) 受 限 玻 尔 兹 曼 机 本 身 是 基于 二 分 图 的 无 
癌 图 模型 ， 图 的 一 部 分 具有 可 见 持 元 ， 男 一 部 分 具有 隐藏 单元 。 可 见 单 元 之 间 没 有 连接 ， 隐 沁 
单元 之 间 也 没有 任何 连接 。 通 党 每 个 可 见 单 元 连接 到 每 个 隐藏 单元 ， 但 也 可 以 构造 稀疏 连接 的 
RBM， 如 郑 积 RBM。 (b) 深度 信念 网 络 是 涉及 有 问 和 无 同 连 接 的 混合 图 模型 。 与 RBM 一 样 ， 
它 也 没有 层 内 连接 。 然 而 ，DBN 具 有 多 个 隐藏 层 ， 因 此 隐藏 单元 之 间 的 连接 在 分 开 的 层 中 。 深 
度 信 念 网 络 所 需 的 所 有 局 部 条 件 概率 分 布 都 直接 复制 RBM 的 局 部 条 件 概率 分 布 。 或 者 ， 我 们 也 
可 以 用 完全 无 回 图 表示 深度 信念 网 络 ， 但 是 它 需 要 层 内 连接 来 捕获 父 节 点 间 的 依赖 关系 。 (c) 
深度 玻 尔 效 曼 机 是 具有 几 层 潜 变 量 的 无 回 图 模型 。 与 RBM 和 DBN 一 样 ，DBM 也 缺少 层 内 连 
接 。DBM 与 RBM 的 联系 不 如 DBN 紧 密 。 当 从 RBM 堆 栈 初始 化 DBM 时 ， 有 必要 对 RBM 的 参数 稍 
作 修 改 。 某 些 种 类 的 DBM 可 以 直接 训练 ， 而 不 用 先 训 练 一 组 RBM 


20.2.1 条件 分 布 





RAP ” (Vv) 难 解 ， 但 RBM 的 二 分 图 结构 具有 非常 特殊 的 性 质 ， 其 条 件 分 
布 P(hlv) 和 PClph) 十 因 于 的 ， 并 且 计 算 和 采样 是 相对 简单 的 。 


从 联合 分 布 中 寻 出 条 件 分 布 定 百 观 的 : 








Pihi | r= P) (20.7) 
‘et 
= Pag tb vte htv Wh} (20.8) 
1 
= 7 XP fec'h +y! Wh} (20.9) 
1 Nh j=1 
= HPD ej hy + Yoo! Wgh) (20.10) 
1 th 
j=l 


由 于 我 们 相对 可 见 单 元 v 计算 条 件 概 率 ， 相 对 于 分 布 P (h | v ) 我 们 可 以 
将 它们 视 为 归 数 。 条 件 分 布 P (h | v ) 因 于 相 乘 的 本 质 ， 我 们 可 以 将 同 量 
h 上 的 联合 概率 写成 单独 元 素 h ; 上 (未 归 一 化 ) 分 布 的 乘积 。 现 在 原 问 
题 变 成 了 对 单个 二 值 hj 上 的 分 布 进行 归 一 化 的 简单 问题 。 


~ 


Plas. = A 
P(h; =1|v) = se —— (20.12) 
Pb, —0)2)+Py = 1] 四 
_ plyt Weg} _ (20.13) 
exp{0} +exp{c; +v! W. ;} ) 
—o(c)+v' W.,;) (20.14) 


MERNE URT BU WY EER FD IA AA FI ZX: 


Th 


P(h | v) = | [o((2h - 1) © (c + W »)), (20.15) 
j=1 


关 似 的 推 寻 将 显示 我 们 感 兴趣 的 万 一 个 条 件 分 布 ，P (v | h ) 也 是 因子 形 
式 的 分 布 : 


P(v | h) = [Tet -1)© (b+ Wh)). (20.16) 
=i. 


20.2.2 AZIR RR SAL 


央 为 RBM 人 允许 蜗 效 计算 忆 (w) 的 估计 和 微分 ， 并 且 还 允许 高 效 地 以 块 
吉 布 斯 采样 的 形式 〉 进行 MCMC 有 采样， 所 以 我 们 很 容易 使 用 第 18 间 中 训 
练 具有 难以 计算 配 分 函数 模型 的 技术 来 训练 RBM。 这 包括 CD、 

SML (PCD) 、 比 率 匹 配 等 。 与 深度 学 习 中 使 用 的 其 他 无 同 模 型 相 比 ， 
RBM 可 以 相对 直接 地 训练 ， 因 为 我 们 可 以 以 闭 解 形式 计算 P (h | v )。 其 
他 一 些 深 在 模型 ， 如 深度 玻 尔 效 曙 机， 同时 具备 难处 理 的 配 分 浮 数 和 难 
DA PEE DT EA) EE pelt o 


20.3 ”深度 信念 网 络 


深度 信念 网 络 (deep belief network, DBN) 是 第 一 批 成 功 应 用 深度 架 
构 训 练 的 非 卷 积 模型 之 一 (Hinton et al. , 2006a; Hinton, 2007b) 。 
2006 年 深度 信念 网 络 的 引入 开始 了 当前 深度 学 习 的 复兴 。 在 引入 深度 信 
念 网 络 之 前 ， 深 度 模 型 被 认为 太 难 以 优化 。 有 其 有 吓 目 标 函 数 的 核 机 堪 引 
领 了 研究 前 治 。 深 度 信 念 网 络 在 MNIST 数 据 集 上 表现 超过 内 核 化 支持 向 
量 机 ， 以 此 证 明 深 度 架 构 是 能 够 成 功 的 〈Hinton et al. , 2006a) 。 尺 管 
现在 与 其 他 无 监督 或 生成 学 习 算 法 相 比 ， 深 度 信 念 网 络 大 多 已 经 失去 了 
育 睐 并 很 少 使 用 ， 但 它们 在 深度 学 习 历 史 中 的 重要 作用 仍 应 该 得 到 承 

Wo 
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而 可 见 单元 可 以 是 二 值 或 实数 。 尺 省 构造 连接 比较 稀 球 的 DBN 古 可 能 
的 ， 但 在 一 般 的 模型 中 ， 每 层 的 每 个 单元 连接 到 每 个 相 邻 层 中 的 每 个 单 
元 “没有 层 内 连接 ) 。 顶 部 两 层 之 则 的 连接 是 无 回 的。 而 所 有 其 他 层 之 
间 的 连接 是 有 同 的 ， 篆 头 指 癌 了 最 接近 数据 的 层 。 见 图 20.1 b) 的 例 
T. 


FAV MEUEMDBNEL AARE E: ZW... wO, Amea 
含 ] 十 1 个 偏 置 向 量 ，b(0) ..， DC) ， 其 中 b o 是 可 见 层 的 偏 置 。DBN 
表示 的 概率 分 布 由 下 式 给 出 : 


Pa RED) exp (0O hO +4 6-DAY 4 Al" WOR), (20.17) 


P(n?) =1| nth 7 (oh) 4 WFD AED) Wi Vk Ee b.. 1-2, (20.18) 
P(v; =1| AY) =o (0 + WY? hË )) vi (20.19) 

在 实 值 可 见 单 元 的 情况 下 ， 符 换 
vwN(oi5o 4 WO AY, 3-1) (20.20) 


为 便于 处 理 ，B 为 对 角形 式 。 至 少 在 理论 上 上， 推广 到 其 他 指数 族 的 可 见 
单元 是 直观 的 。 只 有 一 个 隐 茂 层 的 DBN 只 是 一 个 RBM。 


为 了 从 DBN 中 生成 样本 ， 我 们 先 在 顶部 的 两 个 隐藏 层 上 运行 几 个 Gibbs 
采样 步 又。 这 个 阶段 主要 从 RBM“《〈 由 顶部 两 个 隐藏 层 定 义 ) 中 采 一 个 

样本 。 然 后 ， 我 们 可 以 对 模型 的 其 余部 分 使 用 单 次 原始 采样 ， 以 从 可 见 
单元 绘制 样本 。 


深度 信念 网 络 引 友 诗 多 与 有 问 模 型 和 无 同 模 型 同时 相关 的 问题 。 


由 于 每 个 有 回 层 内 的 相 消解 释 效应 ， 并 且 由 于 无 癌 连 接 的 两 个 隐 甩 层 之 
则 的 相互 作用 ， 深 度 信念 网 络 中 的 推断 是 难 解 的 。 评 信 或 最 大 化 对 数 似 
然 的 标准 证 据 下 界 也 是 难以 处 理 的 ， 因 为 证 据 下 界 基于 大 小 等 于 网 络 宽 
及 的 团 的 期 户 


评 们 或 最 大 化 对 数 似 然 ， 不 仅 二 要 面 对 边 经 化 潜 变 量 时 难以 处 理 的 推 凯 
问题 ， 而 且 还 需要 处 理 顶 部 两 层 无 问 模 型 内 难处 理 的 配 分 函数 问题 。 


为 训练 深度 信念 网 络 ， 我 们 可 以 先 使 用 对 比 散 度 或 随机 最 大 似 然 方 法 训 
练 RBM 以 最 大 化 了 .logp(V) 。RBM 的 参数 定义 了 DBN 第 一 
层 的 参数 。 然 后 ， 第 二 个 RBM 训 练 为 近似 最 大 化 


By A paata ya) wp (AG |v) log p (hi?) (20.21) 


其 中 p O 是 第 一 个 RBM 表 示 的 概率 分 布 ，p 多 是 第 二 个 RBM 表 示 的 概率 
分 布 。 换 名 话说， 第 二 个 RBM 被 训练 为 模拟 由 第 一 个 RBM 的 隐 首 单元 
采样 定义 的 分 布 ， 而 第 一 个 RBM 由 数据 驱动 。 这 个 过 程 能 无 限 重 复 ， 
从 而 向 DBN 添 加 任意 多 层 ， 其 中 每 个 新 的 RBM 对 前 一 个 RBM 的 样本 建 
模 。 每 个 RBM 定 义 DBN 的 另 一 层 。 这 个 过 程 可 以 被 视 为 提高 数据 在 


DBN 下 似 然 概 率 的 变 分 下 界 (Hinton etal., 2006a) 。 


在 大 多 数 应 用 中 ， 对 DBN 进 行 贫 心 逐 层 训练 后 ， 不 需要 再 化 工夫 对 其 进 
行 联合 训练 。 然 而 ， 使 用 醒 眠 算法 对 其 进行 生成 精 调 是 可 能 的 。 


训练 好 的 DBN 可 以 直接 用 作 生 成 模型 ， 但 是 DBN 的 大 多 数 兴 趣 来 目 它 
们 改进 分 类 模型 的 能 力 。 我 们 可 以 从 DBN 获 取 权 重 ， 并 使 用 它们 定义 
MLP: 


AY = ob +0! Ww), (20.22) 
nO = o (bP 十 iD Ww) We 2 5m (20.23) 


利用 DBN 的 生成 训练 后 获得 的 权重 和 含 置 初始 化 该 MLP 之 后 ， 我 们 可 以 
训练 该 MLP 来 执行 分 类 任务 。 这 种 MLP 的 额外 训练 是 判别 性 精 调 的 示 
例 。 


与 第 19 章 中 从 基本 原理 导出 的 许多 推断 方程 相 比 ， 这 种 特定 选择 的 MLP 
有 些 随 意 。 这 个 MLP 是 一 个 启发 式 选 择 ， 似 乎 在 实践 中 效果 不 错 ， 并 在 
文献 中 一 贯 使 用 。 许 多 近似 推 师 搁 术 是 由 它们 在 一 些 约束 下 ， 并 在 对 数 
似 然 上 找到 最 大 案 变 分 下 界 的 能 力 所 驱 动 的 。 我 们 可 以 使 用 DBN 中 MLP 
定义 的 隐 首 单元 的 期 望 ， 构 造 对 数 似 然 的 变 分 下 界 ， 但 这 对 于 隐 攻 单 元 
上 的 任何 概率 分 布 都 是 如 此 ， 并 没有 理由 相信 该 MLP 提 供 了 一 个 特别 的 
紧 界 。 特 别 地 ，MLP 忽 略 了 DBN 图 模型 中 许多 重要 的 相互 作用 。MLP 
将 信息 从 可 见 单 元 同上 传播 到 最 深 的 隐藏 单元 ， 但 不 同 下 或 侧 癌 传播 任 
何 信 息 。DBN 图 模型 解释 了 同一 层 内 所 有 隐藏 单元 之 间 的 相互 作用 以 及 
层 之 则 的 目 顶 回 下 的 相互 作用 。 


虽然 DBN 的 对 数 似 然 是 难处 理 的 ， 但 它 可 以 使 用 AIS 近 似 
(Salakhutdinov and Murray, 2008) 。 通 过 近似 ， 可 以 评估 其 作为 生成 
蛋 型 的 质量 。 


术语 “深度 信念 网 络 ? 通 币 不 正确 地 用 于 指 代 任意 种 类 的 深度 神经 网 络 ， 
其 至 没有 潜 变 量 意 义 的 网 络 。 这 个 术语 应 符 指 最 深层 中 具有 无 问 连 接 ， 
而 在 所 有 其 他 连续 层 之 间 和 存在 同 下 有 癌 连 接 的 模型 。 


这 个 术语 也 可 能 导致 一 些 混乱 ， 因 为 术语 “信念 网 络 " 有 时 指 纯粹 的 有 回 
模型 ， 而 深度 信念 网 络 包含 一 个 无 网 层 。 深 度 信念 网 络 也 与 动态 贝 叶 斯 


网 络 (dynamic Bayesian networks) (Dean and Kanazawa, 1989) 共享 


首 字母 缩写 DBN， 动 态 贝 叶 斯 网 络 表示 马尔 可 夫 链 的 贝 叶 斯 网 络 。 
20.4 REKI EE SAL 


REKK =L (Deep Boltzmann Machine, DBM) (Salakhutdinov 
and Hinton, 2009a) 是 另 一 种 深度 生成 模型 。 与 深度 信念 网 络 (DBN) 
不 同 的 是 ， 它 是 一 个 完全 无 同 的 模型 。 与 RBM 不 同 的 是 ，DBM 有 几 层 

潜 变 量 (RBM 只 有 一 层 ) 。 但 是 像 RBM 一 样 ， 每 一 层 内 的 每 个 变量 是 

相互 独立 的 ， 并 条 件 于 相 邻 层 中 的 变量 ， 见 图 20.2 中 的 图 结构 。 深 度 玻 
REE SNL OAM EES, PLEA ICP EERE (Srivastava et al. , 

2013) 。 





图 20.2 具有 一 个 可 见 层 ( 底 部 ) 和 两 个 隐藏 层 的 深度 玻 尔 效 曼 机 的 图 模型 。 仅 在 相 邻 层 的 单 
元 之 间 存 在 连接 ， 没 有 层 内 连接 

与 RBM 和 DBN 一 样 ，DBM 通 稍 仅 包 舍 二 值 单 元 〈 正 如 我 们 为 徐 化 模型 
的 演示 而 假设 的 ) ， 但 很 容易 束 能 扩展 到 实 值 可 见 单元 。 


DBM 是 基于 能 量 的 模型 ， 这 意味 着 模型 变量 的 联合 概率 分 布 由 能 量 函 
数 FE 参数 化 。 在 一 个 深度 玻 尔 兹 曼 机 包含 一 个 可 见 层 ”v ”和 3 个 隐藏 层 
hD. (2) Alp (3) 的 情况 下 ， 联 合 概率 由 下 式 给 出 : 


P(v, a h”, a) = exp (— E(v,h™, h”, h; 0)) (20.24) 


1 

Z(0) 

NERZ, IA (20.25) B Smee. DBMABE RAE XO F: 
Elv, h® hO, hO: 6) = vo WDRO -hV WORD -hD WORO (20.25) 


ERBMHJ REEK CR (20.5) ) 相 比 ，DBM 能 量 函 数 以 权重 矩阵 〈 人 W 
(2) FAW y 的 形式 表示 隐藏 里 元 〈( 潜 变量 ) 之 间 的 连接 。 正 如 我 们 将 看 到 
的 ， 这 些 连 接 对 模型 行为 以 及 我 们 如 何在 模型 中 进行 推 关 都 有 重要 的 影 
啊 。 


与 全 连接 的 玻 尔 效 受 机 《每 个 单元 连接 到 其 他 每 个 单元 ) 相 比 ，DBM 
提供 了 类 似 于 RBM 的 一 些 优点 。 


具体 来 说 ， 如 图 20.3 所 示 ，DBM 的 层 可 以 组 织 成 一 个 二 分 图 ， 其 中 奇数 
层 在 一 侧 ， 侧 数 层 在 为 一 侧 。 容 易 友 现 ， 当 我 们 条 件 于 侧 数 层 中 的 变量 
时 ， 奇 数 层 中 的 变量 变 得 条 件 独 立 。 当 然 ， 当 我 们 条 件 于 奇数 层 中 的 变 
量 时 ， 侦 数 层 中 的 变量 也 会 变 得 条 件 独 立 。 





图 20.3 ”深度 玻 尔 兹 曼 机 ， 香 新 排列 后 显示 为 二 分 图 结构 


DBM 的 二 分 图 结构 意味 看， 我 们 可 以 应 用 之 前 用 于 RBM 条 件 分 布 的 相 

同 式 子 来 确定 DBM 中 的 条 件 分 布 。 在 给 定 相 邻 层 值 的 情况 下 ， 层 内 的 

单元 役 此 条 件 独立 ， 因 此 二 人 变量 的 分 布 可 以 由 Bernoulli 参 数 〈 拍 述 每 
ker 完全 摘 述 。 在 共有 两 个 隐 蔚 层 的 示例 中 ， 诉 活 概 座 
由 下 云 给 出 : 


P(w; =1| kD) =0( WPA), (20.26) 
P(h® =1 |v, h?) =o(0 WY + WORO) (20.27) 

和 
P(P =1 | hb) = o(h! wh?) (20.28) 


二 分 图 结构 使 Gibbs 采 样 能 在 深度 玻 尔 效 受 机 中 高 效 采 样 。Gibbs 采 样 的 
方法 是 一 次 只 更 新 一 个 变量 。RBM 人 允许 所 有 可 见 单元 以 一 个 块 的 方式 
更 新 ， 而 所 有 隐藏 单元 在 另 一 个 块 上 更 新 。 我 们 可 以 简单 地 假设 具有 1 
层 的 DBM 需 要 1 十 1 次 更 新 ， 每 次 欠 代 更 新 由 某 层 单 元 组 成 的 块 。 然 而 ， 
我 们 可 以 仪 在 两 次 从 代 中 更 新 所 有 单元 。Gibbs 玉 样 可 以 将 更 新 分 成 两 
个 块 ， 一 块 包括 所 有 侦 数 层 〈( 包 括 可 见 层 ) ， 男 一 个 包括 所 有 奇数 层 。 
由 于 DBM 二 分 连接 模式 ， 给 定 侦 数 层 ， 关 于 奇数 层 的 分 布 是 因子 的 ， 
因此 可 以 作为 块 同时 且 独 立地 采样 。 类 似 地 ， 给 定 奇数 层 ， 可 以 同时 且 
独立 地 将 偶数 层 作 为 块 进行 采样 。 高 效 采 样 对 使 用 随机 最 大 似 然 算 法 的 
训练 尤其 重要 。 


20.4.1 有 趣 的 性 质 
深度 玻 尔 效 曼 机 具有 许多 有 趣 的 性 质 。 


DBM 在 DBN 之 后 开发 。 与 DBN 相 比 ，DBM 的 后 验 分 布 P (h |v) 更 简 
单 。 有 点 违反 直 和 党 的 是 ， 这 种 后 验 分 布 的 简单 性 允许 更 加 丰 宇 的 后 验 近 
似 。 在 DBN 的 情况 下 ， 我 们 使 用 局 及 式 的 近似 推 朵 过 程 进行 分 类 ， 其 中 
我 们 可 以 通过 MLP 〈 使 用 sigmoid 激 活 函 数 并 且 权 重 与 原始 DBN 相 同 ) 

中 的 和 同上 传播 猜测 隐藏 单元 合理 的 均匀 场 期 望 值 。 任 何 分 布 Q ( h ) 可 用 
于 获得 对 数 似 然 的 变 分 下 界 。 因 此 这 种 启发 式 的 过 程 让 我 们 能 够 获得 这 
样 的 下 界 。 但 是 ， 该 界 没 有 以 任何 方式 显 式 优化 ， 所 以 该 界 可 能 是 远 远 
不 紧 的 。 特 别 地 ，Q 的 启发 式 估计 忽略 了 相同 层 内 隐藏 单元 之 间 的 相互 


作用 ， 以 及 更 深层 中 隐藏 单元 对 更 接近 输入 的 隐藏 单元 自 顶 同 下 的 反馈 
影响 。 因 为 DBN 中 基于 局 发 式 MLP 的 推断 过 程 不 能 考虑 这 些 相互 作用 ， 
所 以 得 到 的 Q 想 必 远 不 是 最 优 的 。DBM 中 ， 在 给 定 其 他 层 的 情况 下 ， 层 
内 的 所 有 隐藏 单元 都 是 条 件 独立 的 。 这 种 层 内 相互 作用 的 缺失 使 得 通过 
不 动 点 方程 优化 变 分 下 界 ， 并 找到 真正 最 佳 的 均匀 场 期 望 〈 在 一 些 数值 
容 差 内 ) 变 得 可 能 的 。 


使 用 适当 的 均匀 场 多 许 DBM 的 近似 推 师 过 程 捕获 上 自 项 回 下 反馈 相互 作 
用 的 影响 。 这 从 神经 科学 的 角度 来 看 是 有 趣 的 ， 因 为 根据 已 若 ， 人 脑 使 
用 许多 上 自 上 而 下 的 反馈 连接 。 由 于 这 个 性 质 ，DBM 己 被 用 作 真实 神经 
科学 现象 的 计算 模型 (Series et al.，2010; Reichert etal., 2011) . 


DBM 一 个 不 理想 的 特性 是 从 中 采样 是 相对 困难 的 。DBN 只 需要 在 其 顶 

部 的 一 对 层 中 使 用 MCMC 有 采样。 其 他 层 仪 在 采样 过 程 末 尾 涉及 ， 并 有 日 只 
需 在 一 个 高 效 的 原始 采样 过 程 。 要 从 DBM 生 成 样本 ， 必 须 在 所 有 层 中 

使 用 MCMC， 并 且 模 型 的 每 一 层 都 参与 每 个 马尔 可 夫 链 转移 。 


20.4.2 DBM 均 匀 场 推断 


给 定 相 邻 层 ， 一 个 DBM 层 上 的 条 件 分 布 征 因 于 的 。 在 有 两 个 隐藏 层 的 
DBM 的 示例 中 ， 这 些 分 布 是 P (v| h a) P (h a)l, h o )P (h olh a 
)。 因 为 层 之 间 的 相互 作用 ， 所 有 隐藏 层 上 的 分 布 通常 不 是 因子 的 。 在 
有 两 个 隐藏 层 的 示例 中 ， 由 于 hg) #0 h gy 之 间 的 交互 权重 W o 使 得 这 
些 变 量 相 互 依赖 ，P (hoy)v, hg ) 不 是 因子 的 。 


与 DBN 的 情况 一 样 ， 我 们 还 是 要 找 出 近似 DBM 后 验 分 布 的 方法 。 然 
而 ， 与 DBN 不 同 ，DBM 在 其 隐 羧 单元 上 的 后 验 分 布 〈 复 杂 的 ) 很 容易 
用 变 分 近似 来 近似 《如 第 19.4 节 所 讨论 ) ， 有 具体 是 一 个 均匀 场 近似 。 均 
勾 场 近似 是 变 分 推 央 的 简单 形式 ， 其 中 我 们 将 近似 分 布 限制 为 完全 因子 
的 分 布 。 在 DBM 的 情况 下 ， 均 匀 场 方程 捕获 层 之 则 的 双 同 相互 作用 。 
在 本 节 中 ， 我 们 推导 出 由 Salakhutdinov and Hinton (2009a) 最 初 引入 的 
TA ARLE APE TI FE o 

在 推断 的 变 分 近似 中 ， 我 们 通过 一 些 相当 简单 的 分 布 族 近 似 特 定 日 标 分 
布 一 一 在 这 里 指 给 定 可 见 单 元 时 隐 蔬 时 元 的 后 验 分 布 。 在 均匀 场 近似 的 
情况 下 ， 近 似 族 是 隐 蕊 单元 条 件 独 立 的 分 布 集合 。 


我 们 现在 为 具有 两 个 隐藏 层 的 示例 推导 均匀 场 方法 。 令 Q (hay, h gM 
AP (h gh o 的 近似 。 均 匀 场 假设 意味 着 


Qian? RP |v) = TP Qn? | v) TT AR | 2) (20.29) 
J k 


均匀 场 近似 试图 找到 这 个 分 布 族 中 最 适合 真实 后 验 P (h gy h o Iv) 的 成 
员 。 重 要 的 是 ， 每 次 我 们 使 用 v 的 新 值 时 ， 必 须 再 次 运行 推断 过 程 以 找 
到 不 同 的 分 布 Q。 


我 们 可 以 设想 很 多 方法 来 衡量 Q (h VSIP (h |v) 的 拟 合 程度 。 均 匀 场 方法 
是 最 小 化 


KL(Q || P) = J OU, E | v) log Crore? (20.30) 

一 般 来 说 ， 除 了 要 你 证 独立 性 假设 ， 我 们 不 必 提 供 参 数 形式 的 近似 分 
布 。 变 分 近似 过 程 通 第 能 够 恢复 近似 分 布 的 函数 形式 。 然 而 ， 在 二 什 隐 
疾 单 元 《我们 在 这 里 推导 的 情况 ) 的 均匀 场 假 设 的 情况 下 ， 不 会 由 于 预 
和 匈 国定 模型 的 参数 而 损失 一 般 性 。 


我 们 将 Q 作 为 Bernoulli 分 布 的 乘积 进行 参数 化 ， 即 我 们 将 h jj) 每 个 元 系 
的 概率 与 一 个 参数 相关 联 。 有 具体 来 说 ， 对 于 每 个 j，7 = aik? = 1| v) 
, HAY e [0,1] o AY MRM AO = QAP =1|v) ， 其 中 
hP e [0,1] 。 因 此 ， 我 们 有 以 下 近似 后 验 : 


QD A? | v) = TT Q(ns” | v) TT Qn,” | ») (20.31) 
j k 


= [apa AOC) x Tae" a -LT my 
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所 有 偶数 层 ， 然 后 同时 更 新 所 有 奇数 层 。 


现在 我 们 已 经 指定 了 近似 分 布 Q 的 函数 族 ， 但 仍然 需要 指定 用 于 选 挤 访 
图 数 族 中 了 最 适合 P 的 成 员 的 过 程 。 节 直接 的 方法 是 使 用 式 〈19.56) 指定 
的 均匀 场 方程 。 这 些 方程 是 通过 求解 变 分 下 界 导 数 为 零 的 位 置 而 导出 ， 


它们 以 抽象 的 方式 描述 如 何 优化 任意 模型 的 变 分 下 界 〈 只 需 对 Q 求 期 
组) 。 


应 用 这 些 一 般 的 方程 ， 我 们 得 到 以 下 更 新 规则 《再 识 急 略 俩 置 项 ) : 

bY =o( Sou Wi) + woh), v (20.33) 

he = vi (20.34) 
在 该 方程 组 的 不 动 点 处 ， 我 们 具有 变 分 下 界 亡 ( CO2 ) 的 局 部 最 大 值 。 
此 ， 这 些 不 动 点 更 新 方程 定义 了 和 迭代 算法 ， 其 中 我 们 交替 更 新 几 E 
用 式 〈20.33) ) Alpi? 《使 用 式 〈20.34) ) 。 对 于 诸如 MNIST 的 小 问 
题 ， 少 至 10 次 友 代 融 足 以 找到 用 于 学 习 的 近似 正 相 柳 度 ， 而 50 次 通 钟 足 
以 获得 要 用 于 蜗 精 度 分 类 的 单个 特定 样本 的 融 质 量 表示 。 将 近似 变 分 推 
潜 扩 展 到 更 深 的 DBM 是 直观 的 。 


20.4.3 DBM 的 参数 学 习 


DBM 中 的 学 习 必 须 面 对 难 解 配 分 函数 的 挑 成 《使 用 第 18 章 中 的 拉 
术 ) ， 以 及 难 解 后 验 分 布 的 挑 成 “使 用 第 19 草 中 的 扩 术 ) 。 


如 第 20.4.2 市 中 所 插 述 的 ， 变 分 推断 允许 构建 近似 难处 理 的 P (h |v) 的 分 
布 Q (hv)。 然 后 通过 最 大 化 A (v, Q, 8 ) 〈 难 处 理 的 对 数 似 然 的 变 分 
下 界 log PP( wv; 日) ) ) 学 习 。 


对 于 具有 两 个 隐藏 层 的 深度 玻 尔 兹 曼 机 ，/ 由 下 式 给 出 


£(Q,0) = Y vwih + > > hi We hi — log Z(0) + H(Q) (20.35) 
a at Yid k! 


该 表达 式 仍然 包含 对 数 配 分 函数 ]og Z(O) 。 由 于 深度 玻 尔 兹 曼 机 包含 
受 限 玻 尔 兹 曼 机 作为 组 件 ， 用 于 计算 受 限 玻 尔 兹 曼 机 的 配 分 函数 和 采样 
的 困难 同样 适用 于 深度 玻 尔 兹 曼 机 。 这 意味 着 评估 玻 尔 效 曼 机 的 概率 质 
量 函 数 需 要 近似 方法 ， 如 退火 重要 采样 。 同 样 ， 训 练 模型 需要 近似 对 数 
配 分 函数 的 梯度 ， 见 第 18 意 对 这 些 方法 的 一 般 性 描述 。DBM 通 常 使 用 

蝴 机 最 大 似 然 训练 。 第 18 章 中 描述 的 许多 其 他 技术 都 不 适用 。 诸 如 伪 似 
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界 。 对 于 深度 玻 尔 兹 曼 机 ， 对 比 若 度 是 绥 慢 的 ， 因 为 它们 不能 在 给 定 可 
见 早 元 时 对 隐藏 单元 进行 融 效 采样 一 一 有 反而， 每 当 需 要 新 的 负 相 样本 
时 ， 对 比 散 度 将 需要 磨合 一 条 马尔 可 天 链 。 


非 变 分 版 本 的 随机 最 大 似 然 算法 已 经 在 第 18.2 节 讨论 过 。 算 法 20.1 给 出 
了 应 用 于 DBM 的 变 分 随机 最 大 似 然 算法 。 回 力 一 下 ， 我 们 描述 的 是 
DBM 的 简化 变 体 〈 缺 少 偏 置 参数 ) ， 很 容易 推广 到 包含 偏 置 参数 的 情 
E 


20.4.4 ZEMA 


AERE BENAR ERE AI G EATR) 的 DBM 
BEER. EET, REAREA UENRA. E 
其 他 情况 下 ，DBM 可 以 很 好 地 表示 分 布 ， 但 是 没有 比 仅 使 用 RBM 获 得 
ERARA. BRA Rb, PIA NAA SE fs J) HD BM RBM 
表示 大 致 相同 的 分 布 。 


如 第 20.4.5 节 所 述 ， 目 前 已 经 开发 了 人 允许 联合 训练 的 各 种 技术 。 然 而 ， 
克服 DBM 的 联合 训练 问题 最 初 和 最 流行 的 方法 是 信心 逐 层 预 训 练 。 在 
该 方法 中 ，DBM 的 每 一 层 梓 单独 视 为 RBM 进 行 训 练 。 第 一 层 被 训练 为 
对 输入 数据 进行 建 模 。 每 个 后 续 RBM 被 训练 为 对 来 自前 一 RBM 后 验 分 
布 的 样本 进行 建 模 。 在 以 这 种 方式 训练 了 所 有 RBM 之 后 ， 它 们 可 以 被 
组 合成 DBM。 然 后 可 以 用 PCD 训 练 DBM。 通 常 ，PCD 训 练 将 仅 使 模型 
的 参数 、 由 数据 上 的 对 数 似 然 衡量 的 性 能 、 区 分 输入 的 能 力 发 生 和 人 微小 的 
变化 ， 见 图 20.4 展 示 的 训练 过 程 。 











图 20.4 ”用 于 分 类 MNIST 数 据 集 的 深度 玻 尔 北 受 机 训练 过 程 〈Salakhutdinov and Hinton, 

2009a; Srivastava etal. 2014) . (a) 使 用 CD 近似 最 大 化 log P(v) 来 训练 RBM。 (b) 训练 第 
二 个 RBM， 使 用 CD-k 近 似 最 大 化 log P( h O ,y) 来 建 模 h ( 思 和 目标 类 y， 其 中 h ( 力 采 自 第 一 个 
RBM 条 件 于 数据 的 后 验 。 在 学 习 期 间 将 k 从 1 增加 到 20。 Cc) 将 两 个 RBM 组 合 为 DBM。 使 用 k 

二 5 的 随机 最 大 似 然 训练 ， 近 似 最 大 化 log P( Vv,y)。 (dO 将 y 从 模型 中 删除 。 定 义 新 的 一 组 特征 1 
D 和 hh (2， 可 在 缺少 y 的 模型 中 运行 均匀 场 推断 后 获得 。 使 用 这 些 特 征 作 为 MLP 的 输入 ， 其 结 
构 与 均匀 场 的 额外 轮 相 同 ， 并 且 具 有 用 于 估计 y 的 额外 输出 层 。 初 始 化 MLP 的 权重 与 DBM 的 权 


重 相 同 。 使 用 随机 梯度 下 降 和 Dropout 训 练 MLP 近 似 最 大 化 log P(y | v )。 图 来 自 Goodfellow et al 
(2013d) 





算法 20.1 用 于 训 纤 共有 两 个 隐 医 层 的 DBM 的 变 分 随机 最 大 似 然 算 
ie 
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end while 





这 种 贫 心 逐 层 训练 过 程 不 仅仅 是 坐标 上 升 ， 因 为 我 们 在 每 个 步骤 优化 参 
数 的 一 个 子 集 ， 它 与 坐标 上 升 具 有 一 些 传 鸳 相似 性 。 这 两 种 方法 是 不 同 
因为 贫 心 逐 层 训练 过 程 中 ， 我 们 在 每 个 步骤 都 使 用 了 不 同 的 目标 函 


DBM 的 贪心 逐 层 预 训 练 与 DBN 的 贪心 逐 层 预 训 练 不 同 。 每 个 单独 的 
RBM 的 参数 可 以 直接 复制 到 相应 的 DBN。 在 DBM 的 情况 下 ，RBM 的 参 
数 在 包含 到 DBM 中 之 前 必须 修改 。RBM 栈 的 中 间 层 仅 使 用 自 底 向 上 的 
输入 进行 训练 ， 但 在 栈 组 合 形 成 DBM 后 ， 该 层 将 同时 具有 自 底 向 上 和 
目 顶 加 下 的 输入 。 为 了 解释 这 种 效应 ，Salakhutdinov and 
Hinton (2009a) 提倡 在 将 其 插入 DBM 之 前 ， 将 所 有 RBM (顶部 和 底部 
RBM 除 外 ) 的 权重 除 2。 另 外 ， 必 须 使 用 每 个 可 见 单 元 的 两 个 “副本 ”来 


VIZREREBRBM, FFA PAS AS ZBI AAT RASS 6 OSA AS TE [A] 
ERIEN, AEREAS. RIA, IABRBM)y SEH te UE HY 
两 个 副本 来 训练 。 


为 了 使 用 深度 玻 尔 效 曼 机 获得 最 好 结果 ， 我 们 需要 修改 标准 的 SML 算 
法 ， 即 在 联合 PCD 训 练 步 邓 的 负 相 期 间 使 用 少量 的 均 勾 场 
(Salakhutdinov and Hinton, 2009a) 。 有 具体 来 说 ， 应 当 相 对 于 其 中 所 有 
单元 彼此 独立 的 均匀 场 分 布 来 计算 能 量 梯度 的 期 望 。 这 个 均匀 场 分 布 的 
参数 应 该 通过 运行 一 次 均匀 场 不 动 点 方程 获得 。Goodfellow et al 
(2013d) 比较 了 在 负 相 中 使 用 和 不 使 用 部 分 均匀 场 的 中 心 化 DBM 的 性 
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20.4.5 TRE VARA BOR 2 BAL 


经 典 DBM 需 要 贪心 无 监督 预 训练 ， 并 用 为 了 更 好 的 分 类， 需要 在 它们 
提取 的 隐藏 特征 之 上 上 ， 使 用 独立 的 基于 MLP 的 分 类 器 。 这 种 方法 有 一 些 
不 理想 的 性 质 ， 因 为 我 们 不 能 在 训练 第 一 个 RBM 时 评估 完整 DBM 的 属 
性 ， 所 以 在 训练 期 间 难 以 跟踪 性 能 。 因 此 ， 直 到 相当 晚 的 训练 过 程 ， 我 
们 都 很 难 知 着 我 们 的 超 参 数 表 现 如 何 。DBM 的 软件 实现 需要 很 多 不 同 
的 模块 ， 如 用 于 单个 RBM 的 CD 训练 、 完 整 DBM 的 PCD 训 练 以 及 基于 反 
回 传 播 的 MLP 训 练 。 最 后 ， 玻 尔 效 受 机 顶部 的 MLP 失 去 了 玻 尔 效 受 机 概 
率 模型 的 许多 优点 ， 例 如 当 某 些 输入 值 丢失 时 仍 能 够 进行 推 央 的 优点 。 


主要 有 了 两 种 方法 可 以 处 理 深 度 琉 尔 效 受 机 的 联合 训练 问题 。 第 一 个 是 中 
心 化 深度 琉 尔 效 受 机 (centered deep Boltzmann machine) (Montavon 
and Muller, 2012) ， 通 过 重 参数 化 模型 使 其 在 开始 学 习 过 程 时 代价 函 
数 的 Hessian 具 有 更 好 的 条 件数 。 这 个 模型 不 用 经 过 贫 心 逐 层 预 训练 阶段 
怠 能 训练 。 这 个 模型 在 测试 集 上 获得 出 色 的 对 数 似 伏 ， 并 能 产生 高 质量 
的 样本 。 不 滁 的 是 ， 作 为 分 类 器 ， 它 仍然 不 能 与 适当 正则 化 的 MLP 苋 
争 。 联 合 训练 深度 玻 尔 兹 曼 机 的 第 二 种 方式 是 使 用 多 预测 深度 玻 尔 效 曼 
机 Cmulti-prediction deep Boltzmann machine, MP-DBM) (Goodfellow 
et al. , 2013d) 。 该 模型 的 训练 准则 允许 反 辐 传播 算法 ， 以 避免 使 用 
MCMC 估 计 榜 上 度 的 问题 。 不 对 的 是 ， 新 的 准则 不 会 导致 民 好 的 似 然 性 或 
标本 ,但 是 相 比 MCMC 方 法 ， 它 确实 会 导致 更 好 的 分 类 性 能 和 民 好 的 推 
Wok A HY Be 
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的 单元 x ， 玻 尔 效 曼 机 中 心 化 技巧 是 最 容易 摘 述 的 。 回 顾 式 〈20.2) ， 
PEEKAA FRA E 


E(x) = —z' Uzr — bz (20.36) 


EREE U PEHA HAER, RATE AKWA TR] AR 4 A AR 
兹 曼 机 ， 如 RBM 或 具有 不 同 层 数 的 DBM。 将 x 分 割 成 可 见 和 隐藏 单 
元 ， 并 将 U PANE EES Yc Ae AY PASI EER Ao HPL OBR 
BRENLSLA SSA pyu, FFA ATA TRAS PRA: 


E'(a2;U,b) = —(@ — p)' U(a -pm — (x —p)'b (20.37) 


通常 p 在 开始 训练 时 国定 为 一 个 超 参 数 。 当 模型 初始 化 时 ， 通 常 选择 为 
x 一 JH NS0。 这 种 重 参 数 化 不 改变 模型 可 表示 的 概率 分 布 的 集合 ， 但 它 确 
实 改 变 了 应 用 于 似 然 的 随机 梯度 下 降 的 动态 。 有 基体 来 说 ， 在 许多 情况 
下 ， 这 种 重 参数 化 导致 更 好 条 件数 的 Hessian 官 阵 。Melchior et al. 
(2013) 通过 实验 证 实 了 Hessian 算 阵 条 件数 的 改善 ， 并 观 守 到 中 心 化 技 
巧 等 价 于 另 一 个 玻 尔 效 受 机 学 习 技 术 一 增强 梯 虔 (enhanced 
gradient) (Cho et al. , 2011) 。 即 使 在 困难 的 情况 下 ， 例 如 训练 多 层 
的 深度 玻 尔 效 曼 机 ，Hessian 托 阵 条 件数 的 改善 也 能 使 学 习 成 功 。 


联合 训练 深度 玻 尔 效 曼 机 有 的 男 一 种 方法 是 多 预测 深 虐 玻 尔 兹 曼 机 (MP- 
DBM)， 它 将 均匀 场 方程 视 为 定义 一 系列 用 于 近似 求解 每 个 可 能 推断 

问题 的 循环 网 络 (Goodfellow et al. ，2013d) 。 模 型 被 训练 为 使 每 个 循 
环 网 络 获得 对 相应 推 新 问题 的 准确 答案 ， 而 不 是 训练 模型 来 最 大 化 似 

然 。 训 练 过 程 如 图 20.5 所 示 ， 它 包括 随机 采 一 个 训练 样本 ， 随 机 采样 推 
汤 网 络 的 输入 子 集 ， 然 后 训练 推 师 网 络 来 预测 剩余 蛙 元 的 值 。 








图 20.5 ”深度 玻 尔 效 曼 机 多 预测 训练 过 程 的 示意 图 。 每 一 行 指示 相同 训练 步骤 内 小 批量 中 的 不 
同样 本 。 每 列表 示 均 匀 场 推断 过 程 中 的 时 间 步 。 对 于 每 个 样本 ， 我 们 对 数据 变量 的 子 集 进 行 采 
样 ， 作 为 推 新 过 程 的 输入 。 这 些 变 量 以 黑色 阴影 表示 条 件 。 然 后 我 们 运行 均匀 场 推 朵 过 程 ， 季 
头 指 示 过 程 中 的 哪些 变量 会 影响 其 他 变量 。 在 实际 应 用 中 ， 我 们 将 均匀 场 展 开 为 几 个 步 台 。 在 
此 示意 图 中 ， 我 们 只 展开 为 两 个 步骤 。 虚 线 箭头 表示 获得 更 多 步骤 需要 如 何 展开 该 过 程 。 未 用 
作 推 新 过 程 输入 的 数据 变量 成 为 目标 ， 以 灰色 阴影 表示 。 我 们 可 以 将 每 个 样本 的 推 邮 过 程 视 为 
循环 网 络 。 为 了 使 其 在 给 定 输入 后 能 产生 正确 的 目标 ， 我 们 使 用 梯度 下 降 和 反问 传播 训练 这 些 
循环 网 络 。 这 可 以 训练 MP-DBM 均 匀 场 过 程 产 生 准 确 的 估计 。 图 改编 日 Goodfellow et al. 
(2013d) 


这 种 用 于 近似 推 逆 ， 通 过 计算 图 进行 反 同 传播 的 一 般 原 理 已 经 应 用 于 其 











他 模型 CStoyanov et al. , 2011; Brakel et al. , 2013) 。 在 这 些 模型 和 
MP-DBM 中 ， 最 终 损 失 不 是 似 然 的 下 界 。 相 反 ， 最 终 损失 通常 基于 近似 
推断 网 络 对 缺失 值 施加 的 近似 条 件 分 布 。 这 意味 看 这 些 模型 的 训练 有 些 
启发 式 。 如 果 我 们 检查 由 MP-DBM 学 习 出 来 的 玻 尔 兹 曼 机 表示 p ( V 
) , FEGibbs HE ERZAR WEA T. EMTA ERA 
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式 训 练 模型 一 一 使 用 近似 推 新 。 这 意味 着 在 MP-DBM 中 ， 进 行 如 填充 缺 
失 的 输入 或 执行 分 类 《尽管 存在 缺失 的 输入 ) 的 近似 推断 比 在 原始 
DBM 中 更 准确 。 原 始 DBM 不 会 自己 做 出 准确 的 分 类 器 ， 使 用 原始 DBM 
的 最 佳 分 类 结果 是 基于 DBM 提 到 的 特征 训练 独立 的 分 闫 右 ， 而 不 是 通 
过 使 用 DBM 中 的 推 呆 来 计算 关于 类 标签 的 分 布 。MP-DBM 中 的 均 勾 场 
推断 作为 分 类 右 ， 不 需要 进行 特殊 修改 就 获得 展 好 的 表现 。 通 过 近似 推 
断 反 回 传 播 的 另 一 个 优点 是 反 回 传播 计算 损失 的 精确 梯 上 度 。 对 于 优化 而 
言 ， 比 SML 训 练 中 具有 偏差 和 方 兰 的 近似 梯度 更 好 。 这 可 能 解释 了 为 什 
么 MP-DBM 可 以 联合 训练 ， 而 DBM 需 要 贪心 逐 层 预 训 练 。 近 似 推 呆 网 
反问 传播 的 缺点 是 它 不 提供 一 种 优化 对 数 似 然 的 方法 ， 而 提供 广义 伪 似 
PRA fa AC TNT o 


MP-DBM 启 发 了 对 NADE 杠 架 的 扩展 NADE-k (Raiko et al. , 2014) , 
我 们 将 在 第 20.10.10 节 中 描述 。 


MP-DBM 与 Dropout 有 一 定 联 系 。Dropout 在 许多 不 同 的 计算 图 之 间 共 享 
相同 的 参数 ， 每 个 图 之 间 的 差 寞 是 包括 还 是 排除 每 个 单元 。MP-DBM 还 
在 许多 计算 图 之 间 共 享 参数 。 在 MP-DBM 的 情况 下 ， 图 之 间 的 差异 是 每 
个 输入 单元 是 售 被 观察 到 。 当 没有 观察 到 单元 时 ，MP-DBM 不 会 像 
Dropout 那 样 将 其 完全 删除 。 相 反 ，MP-DBM 将 其 视 为 要 推断 的 潜 变 
量 。 我 们 可 以 想象 将 Dropout 悄 用 到 MP-DBM， 即 额外 去 除 一 些 单元 而 
不 是 将 它们 变 为 潜 变 量 。 


20.5” 实 值 数据 上 的 玻 尔 兹 曼 机 


虽然 玻 尔 兹 曼 机 最 初 是 为 二 值 数 据 而 开发 的 ， 但 是 许多 应 用 ， 例 如 图 像 
和 音频 建 模 似乎 需要 表示 实 值 上 概率 分 布 的 能 力 。 在 一 些 情况 下 ， 我 们 
可 以 将 区 间 LO, 1] 中 的 实 值 数 据 视 为 表示 二 值 变 量 的 期 望 。 例 如 ， 

Hinton (2000) 将 训练 集中 灰 度 图 像 的 像 系 值 视 为 定义 LO, 1) 间 的 概 
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独立 。 这 是 评估 灰 度 图 像 数 据 集 上 二 值 模型 的 常见 过 程 。 然 而 ， 这 种 方 
法 理论 上 并 不 特别 令 人 满意 ， 并 且 以 这 种 方式 独立 采样 的 二 值 图 像 上 共有 
en es Seen enna an 
JL. 


20.5.1 Gaussian-Bernoulli RBM 


受 限 玻 尔 兹 曼 机 可 以 用 于 许多 指数 族 的 条 件 分 布 (Welling et al , 
2005) 。 其 中 ， 最 常见 的 是 具有 二 值 隐藏 持 元 和 实 值 可 见 单 元 的 
RBM， 其 中 可 见 单 元 上 的 条 件 分 布 是 高 斯 分 布 〈 艾 值 为 隐 蕊 单元 的 函 
数 ) 。 


有 很 多 方法 可 以 参数 化 Gaussian-Bernoulli  RBM。 首 先 ， 我 们 可 以 选择 
协 方 差 定 阵 或 精度 窍 阵 来 参数 化 高 斯 分 布 。 这 里 ， 我 们 介绍 选择 精度 矩 
阵 的 情况 。 我 们 可 以 通过 简单 的 修改 获得 协 方 兰 的 形式 。 我 们 和 希望 条 件 
分 布 为 


plv | h) =N(v; Wh, 8B") (20.38) 
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项 : 


log N(v; Wh, 87+) = -0 — Wh)' B(v — Wh) + f(B) (20.39) 
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是 归 一 化 分 布 ， 并 且 我 们 选择 的 任何 可 作为 配 分 函数 的 能 量 函 数 都 能 起 
到 这 个 作用 ， 上 所 以 我 们 可 以 忽略 f。 


如 果 我 们 在 能 量 函 数 中 包含 式 (20.39) 中 涉及 v 的 所 有 项 (其 符号 被 翻 
EE) ， 并 且 不 添加 任何 其 他 涉及 v 的 项 ， 那 么 我 们 的 能 量 函 数 就 能 表示 
想 要 的 条 件 分 布 p (v| h )。 

其 他 条 件 分 布 比较 自由 ， 如 p (h |v)。 注 意 式 (20.39) 包含 一 项 


1 
she W'BWh (20.40) 


因为 该 项 包含 hih ; 项 ， 它 不 能 被 全 部 包括 在 内 。 这 些 对 应 于 隐藏 单元 之 
间 的 边 。 如 果 我 们 包括 这 些 项 ， 将 得 到 一 个 线性 因子 模型 ， 而 不 是 受 限 
玻 尔 兹 曼 机 。 当 设计 我 们 的 玻 尔 兹 曼 机 时 ， 简 单 地 省 略 这 些 h ; h | 交叉 
项 。 省 略 这 些 项 不 改变 条 件 分 布 P_(v| h )， 因 此 式 (20.39) 仍 满足 。 然 
而 ， 我 们 仍然 可 以 选择 是 否 包括 仅 涉及 单个 h; 的 项 。 如 果 假设 精度 矩阵 
是 对 角 的 ， 就 能 发 现 对 于 每 个 隐藏 单元 h; ， 我 们 有 一 项 


J 


在 上 面 ， 我 们 使 用 了 jz = h; WERK CAA ; E{0, 1}) 。 如 果 我 们 
在 能 量 函 数 中 包含 此 项 〈( 符 写 补 翻转 ) ， 则 当 访 单元 的 权重 较 六 且 以 高 
hes Se EB AY OI, mh BAAR KA. RA in BAY 
Me] AY AY DA EAN OP TR CAR ERT EL Se eC nh BEBO, (Ae 
它 确 实 会 影响 模型 的 学 习 动 态 。 包 括 该 项 可 以 帮助 隐 着 单元 〈 即 使 权重 
在 幅度 上 人 快速 增加 时 ) 保持 合理 激活 。 


此 ， 在 Gaussian-Bernoulli RBM 上 定义 能 量 函 数 的 一 种 方式 : 
E(v,h) = 50 (B ©v)— (vob)! Wh — b'h (20.42) 
{A FR TTA BY DAS Ab AY a AL ET SE ES BLE E o 


在 这 个 推导 中 ， 我 们 没有 在 可 见 持 元 上 添加 偏 置 项 ， 但 添加 这 样 的 偏 置 
是 容易 的 。Gaussian-Bernoulli RBM 参数 化 一 个 最 终 变 化 的 来 源 是 如 何 
处 理 精度 矩阵 的 选择 。 它 可 以 被 固定 为 常数 (可 能 基于 数据 的 边 绿 精 撒 
估计 ) 或 学 习 出 来 。 它 也 可 以 是 标量 乘 以 蛙 位 矩阵 ， 或 者 是 一 个 对 角 算 
阵 。 在 此 情况 下 ， 由 于 一 些 操作 需要 对 窍 阵 求 进 ， 我 们 通 稼 不 允许 非 对 
角 的 精度 窍 阵 ， 因 为 遍 斯 分 布 的 一 些 操作 需要 对 算 阵 求 迎 ， 一 个 对 角 宛 
阵 可 以 非常 容易 地 被 求 浊 。 在 接 下 来 的 章节 中 ， 我 们 将 看 到 其 他 形式 的 
aes EMI ICE DS Tr Ae a Pd | AEH APRE ST SE 
FE MSE TE 
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虽然 高 期 RBM 已 成 为 实 值 数据 的 标准 能 量 模型 ，Ranzato et al. 
(2010a) 认为 高 斯 RBM 感 应 偶 置 不 能 很 好 地 适合 茶 些 类 型 的 实 值 数据 
中 存在 的 统计 变化 ， 特 别 是 目 然 图 像 。 问题 在 于 目 然 图 像 中 的 许多 信息 
内 容 舱 入 于 像 系 之 间 的 协 方 荤 而 不是 原始 像 系 值 中 。 换 人 句 话 说 ， 图 像 中 
的 大 多 数 有 用 信息 在 于 像 系 之 则 的 关系 ， 而 不 是 其 绝对 值 。 由 于 噩 斯 
RBM 仪 对 给 定 隐 藏 蛙 元 的 输入 条 件 均 值 建 模 ， 所 以 它 不 能 捕获 条 件 协 
方 于 信息。 为 了 回应 这 些 评论 ， 己 经 有 学 者 提出 了 蔡 代 模型 ， 设 法 更 好 
地 考虑 实 值 数据 的 协 方 到 。 这 些 模型 包括 均值 和 协 方 和 下 RBM (mean 
and covariance RBM, mcRBM) 由 一、 学 生 t 分 布 均值 乘积 (mean 
product of Student t-distribution, mPoT) 模型 和 人 尖峰 和 平板 RBM (spike 
and slab RBM, ssRBM ) 


PEAT RBM = mcRBM(8 H bee A oH eS Pg A SF JG 
ATER BA 4. mcRBMIN hea) APA ZA oc: 均值 单元 和 协 
JEA. ERREA ZB Ace fa A fe TRBM. 29 —--F7e 
#RBM_ (covariance RBM, cRBM) (Ranzato et al. , 2010a) , Xf 
条 件 协 方志 的 结构 进行 建 模 〈 如 下 所 述 ) 。 


上 有 具体 来 说 ， 在 二 值 均 值 的 单元 h ™ 和 二 值 协 方差 单元 h O 的 情况 下 ， 
mcRBM 模 型 被 定义 为 两 个 能 量 函 数 的 组 合 : 


Emce(z, h™ , AM?) = 万 (PR 玉 to) + Elx, h©) (20.43) 
RPE ， 为 标准 的 Gaussian-Bernoulli RBM 能 量 函 数 ©, 
En (£, h™) = sala -Y a wi jhe? bh (20.44) 
j j 
E .是 cCRBM 建 模 条 件 协 方差 信息 的 能 量 函 数 : 


1 iC j 2 C G - 
E.(a,h\) = 5 2, h' (alr) za See (20.45) 
j 


参数 r 0 与 六 ”关联 的 协 方差 权重 向 量 对 应 ， b (9 是 一 个 协 方差 偏 置 向 
量 。 组 合 后 的 能 量子 数 定义 联合 分 布 ， 


1 : DE 
"e E aA h\?) = 7 exp { — Enl Ë, nm ni) | (20.46) 


以 及 给 定 h ™ 和 h 后， 关于 观察 数据 相应 的 条 件 分 布 〈 为 一 个 多 元 
局 斯 分 布 ): 


Pme(@ | AY”, A) = v(2 ; Ce b> ws | ori] (20.47) 
j 


注意 协 方差 第 阵 C me 一 | DAO rDrOT + T) T 


对 角 的 ， 晶 W @ 5 SRA EVE RBMK EE. HF 
JEXT FARE Ty E, MENEE EE RUE F ERE EXT LL EE I A 
mcRBM。CD 和 PCD 需 要 从 x、 矿 嘱 、 太 (9 的 联合 分 布 中 采样 ， 这 在 标 
准 RBM 中 可 以 通过 Gibbs 采 样 在 条 件 分 布 上 采样 实现 。 但 是 ， 在 mcRBM 
H, Apme(z£ | po: h\?) HE HEE Fig ee CE OJ A BEI RTT C S ) 
E.R EK ES a BY BEE AS SE os tpa. Ranzato and 
Hinton (2010) ia AmcRBMHA Hae ERARE CGA) R 
(Neal, 1993) 直接 从 边缘 p( X ) 采 样 ， 避 侈 了 直接 从 条 件 
Pme(@ | RY”), ht) AFF 


尝 生 t 分 布 均值 乘积 “学生 {t 分 布 均值 乘积 (mPoT) 模型 (Ranzato et al. 
，2010b) 以 类 似 mcRBM 扩 展 CRBM 的 方式 扩展 PoT 模 型 (Welling et al. 
，2003a) ， 通 过 添加 类 似 高 斯 RBM 中 隐藏 单元 的 非 零 高 斯 均值 来 实 
现 。 与 mcRBM 一 样 ， 观 察 值 上 的 PoT 条 件 分 布 是 多 元 局 斯 (具有 非 对 角 
的 协 方差 ) 分 布 。 然 而 ， 不 同 于 mcRBM， 隐 藏 变量 的 互补 条 件 分 布 是 
由 条 件 独立 的 Gamma 分 布 给 出 。Gamma 分 布 G (k, 0) 是 关于 正 实数 且 
均值 为 k0 的 概率 分 布 。 我 们 只 需 简 单 地 了 解 Gamma 分 布 天 足以 理解 
mPoT 模 型 的 基本 思想 。 


AK, 下 yz N 
mPoT HY fe = PIAA 
Empot (2, h&™, A?) (20.48) 
7 于 1 ! ; r | 
= E,(e,h™) + > (ni (14 5(r OP a)?) + (1 — 74) log hf ) (20.49) 


j 


其 中 rO 是 与 单元 六 ”相关 联 的 协 方差 权重 向 量 ， 瓦 ，(z, h) 如 式 
(20.44) 所 定义 。 


正如 mcRBM 一 样 ，mPoT 模 型 能 量 函 数 指定 一 个 多 元 高 斯 分 布 ， 其 中 关 
于 x Waa ERIE ADT Æ. ee (也 像 
mcRBM) 由 于 无 法 从 非 对 角 蜗 斯 条 件 分 AD Dm Pot ( (x $ e m) h En HK 
样 而 变 得 复杂 。 因 此 Ranzato et al. (2010b) 也 倡导 哈密 和 尔 贺 〈 混 
合 ) 蒙特 卡 罗 (Neal, 1993) 直接 采样 p( x )。 


尖峰 和 平板 RBM 尖峰 和 平板 RBM (spike and slab RBM, ssRBM) 
oe le et al. , 0 $e HEY SEE Ha A PT eZ FEIN a 种 
方法 。 与 mcRBM 相 比 ，ssRBM 具 有 既 不 需要 矩阵 求人 闻 也 不 需要 哈密 尔 

顿 蒙特 卡 罗 方 法 的 优点 。 束 像 mcRBM 和 mPoT 模 型 ， RM AE BJEN 
EAL JRE iE H A BSC ee KR BS R RFN E o 


尖峰 和 平板 RBM 有 两 类 隐藏 单 元 ; ERIE (spike) Poth 和 实 值 平 
板 (slab) 单元 s 。 条 件 于 隐藏 单元 的 可 见 单 元 均值 由 (hh 9 s)W 给 
出 。 换 名 话说 ,每 一 列 WW . ; 定义 当 h | 二 1 时 可 出 现在 输入 中 的 分 量 ， 
相应 的 尖峰 变量 h ; 确定 该 分 量 是 否 存在 午 。 如 果 存 在 的 话 ， 相 应 的 平板 变 
Es ;确定 该 分 量 的 强度 。 当 尖峰 变量 激活 时 ， 相 应 的 平板 变量 将 沿 痢 
W. i 定义 的 轴 的 输入 增加 方差 。 这 允许 我 们 对 输入 的 协 方差 建 模 。 幸 
运 的 是 ， 使 用 Gibbs 采 样 的 对 比 散 度 和 持续 性 对 比 散 上 度 仍然 适用 。 此 处 
Fe BUT EFT FE BER . 


ÆRE, ssRBM Fe 74 iH REE PA FE X: 


F(a, 8,48) =~ W. sihi t3 “a "(a+ 5an )a (20.50) 
十 二 Do CF Dam Misih; "ll + ham pz h; (20.51) 


其 中 bi 是 尖峰 hi 的 俩 置 ，A 是 观测 值 x 上 的 对 角 精 度 和 矩阵 。 参 数 a ; >0 
是 实 值 平板 变量 s， 的 标量 精度 参数 。 人 参数 四 ; 是 定义 x 上 的 h 调制 二 次 
惩 玉 的 非 负 对 角 算 阵 。 每 个 hi 是 平板 变量 si 的 均值 参数 。 


et ak E nee 全 
分 布 由 下 却 给 出 


I ÈE 
Palæ | R) = P Z | sp-El s,h)\ds (20.52) 


=N (e ; C3, > W apihi, cin] (20.53) 


HOS, = (A +D; Bihi- Dia hiW., Wi) | 。 最 后 的 等 式 只 
有 在 协 方差 矩阵 Cs 正定 时 成 立 。 


尖峰 变量 选 通 意 味 看 h Os LA ASA TE GAY. AANA) Tit 
编码 ， 其 中 来 目 模 型 的 样本 在 编 但 中 “几乎 从 不 >《 在 测度 理论 意义 上 ) 
包含 零 ， 并 且 需 要 MAP 推 断 来 强加 稀疏 性 。 


相 比 mcRBM 和 mPoT 模 型 ，ssRBM 以 明显 不 同 的 方式 参数 化 观察 量 的 条 
件 协 方差 。mcRBM 和 mPoT 都 通过 (并 , 六 "rr97 + 站 建 模 观察 量 的 
协 方差 结构 ， 使 用 h; >0 的 隐藏 单元 的 激活 来 对 方向 r 的 条 件 协 方差 
施加 约束 。 相 反 ，SsSRBM 使 用 隐 疾 尖峰 激活 h ; 三 1 来 指定 观察 结束 的 条 
件 协 方 牵 ， 以 沿 厦 由 相应 权重 同 量 指定 的 方 回 捏合 精度 和 矩阵。ssRBM 条 
件 协 方差 与 一 个 不 同 模型 给 出 的 类 似 : 概率 主 成 分 分 析 的 乘积 

(PoPPCA) (Williams and Agakov, 2002) 。 在 过 完备 的 设 定 下 ， 
SSRBM 人 参数 化 的 黎 焉 激活 仅 人 允许 在 稀 玻 激活 hi 的 所 选 方向 上 有 显 滥 方差 
(高 于 由 A AWWW) 。 在 mcRBM 或 mPoT 模 型 中 ， 过 完备 的 
表示 意味 者 ， 捕 获 观 察 空间 中 特定 方 回 上 的 变化 需要 在 该 方 回 上 的 正 交 
投影 下 去 除 潜在 的 所 有 约束 。 这 表明 这 些 模型 不 太 适 合 于 过 完备 设 定 。 


尖峰 和 平板 RBM 的 主要 缺点 是 ， 参 数 的 一 些 人 设置 会 对 应 于 非 正 定 的 协 
方 着 矩阵。 这 种 协 方差 乍 阵 会 在 离 均 信 更 远 的 信 上 放置 更 大 的 未 归 一 化 
概率 ， 叶 致 所 有 可 能 结果 上 的 积分 友 敌 。 通 第 这 个 问题 可 以 通过 人 简 里 的 
司 肥 去 技巧 来 避免 。 理 论 上 还 没有 任何 令 人 满意 的 解决 方法 。 使 用 约束 
优化 来 显 式 地 避免 概率 未 定义 的 区 域 〈 不 过 分 你 守 是 很 难 做 到 的 ) IP 
且 这 还 会 阻止 模 荡 到 过 参数 空间 的 高 性 能 区 域 。 


定性 地 ，sSsSRBM 的 疮 积 变 体能 产生 目 然 图 像 的 优秀 样本 。 图 16.1 中 展示 
了 一 些 样 例 。 


ssSRBM 人 允许 几 个 扩展 ， 包 括 平 板 变 量 的 高 阶 交 互 和 平均 池 化 (Courville 
et al. , 2014) 使 得 模型 能 够 在 标注 数据 稀缺 时 为 分 类 此 学 习 到 出 色 的 


FFE. m REE PSI UCAS — TL RE Ba LEB o> PRI CTE Ps SG BAB SAS 
mE, WREEF ARES (Goodfellow et al. , 2013g) ， 也 称 为 
SS 
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FEM RAT ENCE MIRA Hs o HEISE SE A A A A OR FR HE HU 
法 是 解决 具有 空间 平移 不 变性 或 时 间 结 构 的 输入 问题 的 标准 方式 。 
Desjardins and Bengio (2008) 表明 这 种 方法 应 用 于 RBM 时 效果 很 好 。 


深度 苍 积 网 络 通 第 坝 要 闻 化 操作 ， 使 得 每 个 连续 层 的 空间 大 小 减 小 。 前 
馈 符 积 网 络 退 第 使 用 池 化 孙 数 ， 例 如 池 化 元 系 的 最 大 值 。 目 前 尚 不 清楚 
如 何 将 其 推广 到 基于 能 量 的 模型 的 设 定 中 。 我 们 可 以 在 n 个 三 值 检 测 帮 
单元 4 上 引入 二 值 闻 化 捍 元 p， 强 制 p 二 maxid;， 并 且 当 违反 约束 时 将 能 
量 函 数 设 置 为 o。 因 为 它 需要 评估 22 个 不 同 的 能 量 设置 来 计算 归 一 化 沿 
数 ， 这 种 方式 不 能 很 好 地 扩展 。 对 于 小 的 3x3 池 化 区 域 ， 每 个 池 化 单元 
需要 评估 2” 二 512 个 能 量 函 数 ! 


Lee et al. (2009) 针对 这 个 问题 ， 开 发 了 一 个 称 为 概 座 最 大 池 化 
(probabilistic max pooling)〉 的 解决 方案 (不 要 与 “随机 池 化 ” 泥 消 ,“ 随 
机 池 化 ”是 用 于 隐 伟 地 构建 若 积 前 馈 网 络 集成 的 搁 术 ) MER AL, 
背后 的 策略 是 约束 检测 颖 单元 ， 使 得 一 侈 最 多 只 有 一 个 可 以 处 于 活动 状 
态 。 这 意味 着 仅 存 在 n 十 1 个 总 状态 〈n 个 检测 器 单元 中 某 一 个 状态 为 开 
和 一 个 对 应 于 所 有 检测 硕 单 元 关闭 的 附加 状态 ) 。 当 且 仅 当 检 测 左 单元 
中 的 一 个 开局 时 ， 池 化 单元 打开 。 上 所 有 单元 的 状态 关闭 时 ， 能 量 航 分配 
为 0。 我 们 可 以 认为 这 是 在 用 包含 n 十 1 个 状态 的 单个 变量 来 描述 模型 ， 
或 者 等 价 地 其 有 n 十 1 个 变量 的 模型 ， 除 了 n 十 1 个 联合 分 配 的 变量 之 外 的 
REEI ANO. 


RJA a A SY ABS Be AK ASK RERE a L EERE Te P 
可 能 是 有 用 的 正则 化 约束 ， 而 在 其 他 情景 下 是 对 模型 容量 有 害 的 限制 。 
它 也 不 文 持 重 登 池 化 区 域 。 从 前 饥 郊 积 网 络 获得 了 最 佳 性 能 通 冲 需 归 重 登 
的 池 化 区 域 ， 因 此 这 种 约束 可 能 大 大 降低 了 和 郊 积 玻 尔 北 受 机 的 性 能 。 


Lee etal. (2009) 证 明 概 这 最 大 池 化 可 以 用 于 构建 卷 积 深 怪 玻 泉 效 曼 机 


G 。 该 模型 能 够 执行 诸如 填补 输入 缺失 部 分 的 操作 。 虽 然 这 种 模型 在 理 
论 上 有 了 吸引 力 ， 让 它 在 实践 中 工作 是 具有 挑战 性 的 ， 作 为 分 类 器 通常 不 
如 通过 监督 训练 的 传统 卷 积 网 络 。 


许多 郑 积 模型 对 于 许多 不 同 空 间 大 小 的 输入 同样 有 效 。 对 于 玻 尔 效 曼 

机 ， 由 于 各 种 原因 很 难 改 变 输入 尺寸 。 配 分 函数 随 关 输入 大 小 的 改变 而 
AE. Uh, VE RRR DN ZR fe Ee A) K EE il Hg K ERR E E 
RF RETE, (ABER ZK SALI XK EN EY © FR SRA RAR HZ 
28 By DE H le eS I oo, JF AAAS He Tite eK AK 
小 ， 以 此 获得 可 变 大 小 输入 的 固定 尺寸 的 表示 。 对 于 玻 尔 兹 曼 机 ， 大 型 
闻 化 区 域 的 计算 成 本 比 村 又 方 法 局 很 多 。Lee et al. (2009) 的 方法 使 得 
每 个 检测 需 单 元 在 相同 的 池 化 区 域 中 互 斥 ， 解 诀 了 计算 问题 ， 但 仍然 不 
人 允许 大 小 可 变 的 池 化 区 域 。 例 如 ， 假 设 我 们 在 学 习 边 缘 检 测 堪 时 ， 检 测 
需 单 元 上 具有 2x2 的 概率 最 大 凶 化 ， 这 强制 约束 在 每 个 2x2 的 区 域 中 只 能 
出 现 这 些 边 中 的 一 条 。 如 果 我 们 随后 在 每 个 方 同上 将 输入 图 像 的 大 小 增 
加 50%， 则 期 望 边缘 的 数量 会 相应 地 增加 。 相 反 ， 如 果 我 们 在 每 个 方 问 
上 将 池 化 区 域 的 大 小 增加 50% 到 3x3， 则 互 斥 性 约束 现在 指定 这 些 边 中 
的 每 一 个 在 3x3 区 域 中 仅 可 以 出 现 一 次 。 当 我 们 以 这 种 方式 增长 模型 的 
输入 图 像 时 ， 模 型 会 生成 密度 较 小 的 边 。 当 然 ， 这 些 问 题 只 有 在 模型 必 
须 使 用 可 变数 量 的 池 化 ， 以 便 产 出 固定 大 小 的 输出 同 量 时 才 会 出 现 。 只 
要 模型 的 输出 是 可 以 与 输入 网 像 成 比例 绷 放 的 特征 网 ， 使 用 概率 最 大 池 
化 的 模型 仍然 可 以 接受 可 变 大 小 的 输入 图 像 。 


图 像 边 界 处 的 像 系 也 市 来 一 些 困 难 ， 由 于 玻 尔 效 曼 机 中 的 连接 是 对 称 的 
事实 而 加 剧 。 如 末 我 们 不 隐 云 地 补 零 输入 ， 则 将 会 导致 比 可 见 单元 更 少 
的 隐藏 里 元 ， 并 且 图 像 边 夫 处 的 可 见 单元 将 不 能 被 民 好 地 建 模 ， 因 为 它 
Mie Feb Ree on ey. PAT, OORT he, J 
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活 。 


20.7 用 于 结构 化 或 序列 输出 的 玻 尔 兹 曼 机 
在 结构 化 输出 场景 中 ， 我 们 希望 训练 可 以 从 一 些 输入 x 映射 到 一 些 输出 


y 的 模型 ，y 的 不 同 条 目 私 此 相关 ， 并 且 必 须 导 守 一 些 约束 。 例 如 ， 在 
语 首 合成 任务 中 ，y 是 波形 ， 并 且 你 个 波形 听 起 来 必须 像 连贯 的 发 音 。 


表示 y 中 的 条 目 之 间 天 系 的 目 然 方式 是 使 用 概率 分 布 p(y | x )。 扩 展 到 
建 模 条 件 分 布 的 璃 尔 北 受 机 可 以 文 持 这 种 概率 模型 。 


使 用 玻 尔 效 曼 机 条 件 建 模 的 相同 工具 不 仅 可 以 用 于 结构 化 输出 任务 ， 还 
可 以 用 于 序列 建 模 。 在 后 一 种 情况 下 ， 模 型 必须 估计 变量 序列 上 的 概率 
分 布 p(X ,Xe)) ， 而 不 仅仅 是 将 输入 x 上 映射 到 竹 出 y 。 为 完成 这 
(MER > AAP BOR 24 BNL AT ARAN (xT) | xH,- xD) 形式 的 
因子 。 


视频 洲 戏 和 电影 工业 中 一 个 重要 序列 建 模 任务 是 建 模 用 于 泻 染 3-D 人 物 
骨架 天 市 角度 的 序列 。 这 些 友 列 通常 通 过 记录 角色 移动 的 运动 捕获 系统 
收集 。 人 物 运 动 的 概率 模型 允许 生成 新 的 (之 前 没 见 过 的 ) 但 真实 的 动 
男 。 为 了 解决 这 个 序列 建 模 任务 ，Taylor et al. (2007) 针对 小 的 m3 引入 
了 条 件 RBM 建 模 j(z(0 | a(t)... ,z(t-m)) 。 该 模型 是 p(x 四) 上 的 
RBM， 其 偏 置 参数 是 x 前 面 m 个 值 的 线性 函数 。 当 我 们 条 件 于 x SOP 
的 不 同 值 和 更 早 的 变量 时 ， 我 们 会 得 到 一 个 关于 x 的 狐 RBM。RBM 关 于 
x 的 权重 不 会 改变 ， 但 是 条 件 于 不 同 的 过 去 值 ， 我 们 可 以 改变 RBM 中 的 
不 同 隐 藏 单 元 处 于 活动 状态 的 概率 。 通 过 激活 和 去 激活 隐藏 单 元 的 不 同 
子 集 ， 我 们 可 以 对 x 上 诱导 的 概 深 分 布 进行 大 的 改变 。 条 件 RBM 的 其 他 
变 体 (Mnih et al. , 2011) 和 使 用 条 件 RBM 进 行 序列 建 模 的 其 他 变 体 是 
可 能 的 〈Taylor and Hinton, 2009; Sutskever et al. , 2009; Boulanger- 
Lewandowski etal. , 2012) . 


另 一 个 序列 建 模 任务 是 对 构成 歌曲 音符 序列 的 分 布 进行 建 模 。 
Boulanger-Lewandowski et al. (2012) 引入 了 RNN-RBM 序列 模型 并 应 
用 于 这 个 任务 。RNN-RBM 由 RNN (产生 用 于 每 个 时 间 步 的 RBM 参 数 ) 
组 成 ， 是 帧 序列 x 的 生成 模型 。 与 之 前 只 有 RBM 的 偏 置 参数 会 在 一 个 
时 间 步 到 下 一 个 发 生变 化 的 方法 不 同 ，RNN-RBM 使 用 RNN 来 产生 RBM 
WHAE% AHERE) o W TIAR, 我们 需要 能 够 通过 RNN 反 问 
传播 损失 函数 的 梯度 。 损 失 函 数 不 直 接应 用 于 RNN 输 出 。 相 反 ， 它 应 用 
于 RBM。 这 意味 着 我 们 必须 使 用 对 比 散 度 或 相关 算法 关于 RBM 参 数 进 
行 近似 的 微分 。 然 后 才 可 以 使 用 通常 的 通过 时 间 反 向 传播 算法 通过 RNN 
反问 传播 该 近似 梯度 。 


20.8 HAE I/R 2 SAL 


玻 尔 北 受 机 的 许多 其 他 变种 是 可 能 的 。 


玻 尔 效 受 机 可 以 用 不 同 的 训练 准则 扩展 。 我 们 专注 于 训练 为 大 致 最 大 化 
生成 标准 log p(v ) 的 玻 尔 兹 曼 机 。 相 反 ， 则 在 最 大 化 log p(y | v ) 来 训练 
判别 的 RBM 也 是 有 可 能 的 (Larochelle and Bengio, 2008a) 。 当 使 用 生 
成 性 和 判 列 性 标准 的 线性 组 合 时 ， 访 方法 通 间 表现 最 好 。 不 笠 的 是 ， 至 
少 使 用 现 有 的 方法 来 看 ，RBM 似 乎 并 不 如 MLP 那 样 的 监督 学 习 器 强 
大 。 


在 实践 中 使 用 的 大 多 数 玻 尔 效 曼 机 在 其 能 量 函 数 中 仅 具 有 二 阶 相 互 作 
用 ， 意 味 独 它们 的 能 量 图 数 是 许多 项 的 和 ， 并 且 每 个 单独 项 仅 包 括 两 个 
随机 变量 之 则 的 乘积 。 这 种 项 的 一 个 例子 是 v; Wijhi 。 我 们 还 可 以 训练 
HITIK AL CSejnowski, 1987) ， 其 中 能 量 函 数 项 涉及 许多 变量 的 
乘积 。 隐 汤 蛙 元 和 两 个 不 同 图 像 之 则 的 三 同 交 互 可 以 建 模 从 一 个 视频 由 
到 下 一 个 帧 的 空间 变换 (Memisevic and Hinton, 2007, 2010) 。 通 过 
one-hot 类 别 变 量 的 乘法 可 以 根据 存在 哪个 类 来 改变 可 见 单 元 和 隐藏 单元 
之 则 的 关系 (Nair and Hinton, 2009) 。 使 用 高 阶 交 互 的 一 个 最 近 的 示 
例 是 具有 两 组 隐 羧 单元 的 玻 尔 效 受 机 ， 一 组 同时 与 可 见 单 元 v 和 类 别 标 
答 y 交 互 ， 男 一 组 仪 与 输入 值 v 交互 (Luo et al. , 2011) 。 这 可 以 被 解 
释 为 或 励 一 些 隐 羧 单元 学 习 使 用 与 类 相关 的 特征 来 建 模 输入 ， 而 且 还 学 
习 额 外 的 隐 羧 单元 〈 不 需要 根据 样本 类 别 ， 学 习 通 真 v PEAS A 
WAT) 。 高 阶 交 互 的 另 一 个 用 途 是 选 通 一 些 特 征 。Sohn et al. (2013) 
介绍 了 一 个 币 有 三 阶 交 互 的 玻 尔 效 曼 机 ， 以 及 与 每 个 可 见 单 元 相关 的 二 
进 制 掩 人 码 变 量 。 当 这 些 掩 人 码 变 量 设置 为 0 时 ， 它 们 消除 可 见 日 元 对 隐 矛 
单元 的 影响 。 这 人 允许 将 与 分 类 问题 不 相关 的 可 见 单 元 从 估计 类 别 的 推 朵 
路 径 中 移 除 。 

更 一 般 地 说 ， 玻 尔 兹 曼 机 框架 是 一 个 丰富 的 模型 空间 ， 人 允许 比 运 今 为 止 
已 经 探索 的 更 多 的 模型 结构 。 开 发 狐 形 式 的 玻 尔 兹 曼 机 相 比 于 开发 新 的 
神经 网 络 层 需要 更 多 细心 和 创造 力 ， 因 为 它 通 稼 很 难 找 到 一 个 能 保持 玻 
尔 北 曼 机 所 需 的 所 有 不 同 条 件 分 布 的 可 解 性 的 能 量 图 数 。 尽 管 这 需要 努 
力 ， 访 领域 仍 对 创新 开放 。 


20.9 ”通过 随机 操作 的 有 反问 传播 
传统 的 神经 网 络 对 一 些 输入 变量 x 施加 确定 性 变换 。 当 开发 生成 模型 


时 ， 我 们 经 第 希望 扩展 神经 网 络 以 实现 x 的 随机 变换 。 这 样 做 的 一 个 直 
接 方 法 是 使 用 额外 输入 z “从 一 些 简单 的 概率 分 布 来 样 得 到 ， 如 均匀 或 
高 斯 分 布 ) 来 增强 神经 网 络 。 神 经 网 络 在 内 部 仍 可 以 继续 执行 确定 性 计 
o BERZE x , z ) 对 于 不 能 访问 z 的 观察 者 来 说 将 是 随机 的 。 假 设 { 
E E A 


作为 示例 ， 让 我 们 考虑 从 均值 pg 和 方差 6“ 的 高 斯 分 布 中 采样 y 的 操作 : 
y ~ N(u, 07) (20.54) 


因为 y 的 单个 样本 不 是 由 函数 产生 的 ， 而 是 由 一 个 采样 过 程 产 生 ， 它 的 
输出 会 随 我 们 的 每 次 查询 发 生变 化 ， 所 以 取 y 相 对 于 其 分 布 的 参数 L 和 o? 
的 导数 似乎 是 违反 直觉 的 。 然 而 ， 我 们 可 以 将 采样 过 程 重 写 ， 对 基本 随 
机 变量 z ~ N (2:0, 1) 进行 转换 以 从 期 望 的 分 布 获得 样本 


UV 一 人 十 GZ (20.55) 


现在 我 们 将 其 视 为 具有 额外 输入 z 的 确定 性 操作 ， 可 以 通过 采样 操作 来 
有 反问 传播 。 人 至 关 午 要 的 是 ， 额 外 输入 是 一 个 随机 变量 ， 其 分 布 不 是 任何 
我 们 想 对 其 计算 导数 的 变量 的 函数 。 如 果 我 们 可 以 用 相同 的 z 值 再 次 重 
复 及 样 操作 ， 结 束 会 各 诉 我 们 h 或 5 的 微小 变化 将 会 如 何 改 变 输出 。 


能 够 通过 该 采样 操作 反 回 传播 允许 我 们 将 其 并 入 更 大 的 图 中 。 我 们 可 以 
在 采样 分 布 的 输出 之 上 构建 图 元 素 。 例 如 ， 我 们 可 以 计算 一 些 损失 函数 
J(y) 的 导数 。 我 们 还 可 以 构建 这 样 的 图 元 了 系 ， 其 输出 是 采样 操作 的 输入 
或 参数 。 例 如 ， 我 们 可 以 通过 j = f(x,0) Ho = g(x;0) 构建 更 大 
的 图 。 在 这 个 增强 图 中 ， 我 们 可 以 通过 这 些 函 数 的 反 同 传播 导出 

Vol (y) j 


在 该 局 斯 采样 示例 中 使 用 的 原理 能 更 广泛 地 应 用 。 我 们 可 以 将 任何 形 为 
p(y; 6 ) 或 p(y | x ; 9 ) 的 概率 分 布 表示 为 p(y |w), HQ) 是 同时 包 
含 参数 9 和 输入 x 的 变量 〈 如 果 适 用 的 话 ) 。 给 定 从 分 布 p(y | w) X 
样 的 值 y (其 中 ,9 可 以 是 其 他 变量 的 函数 ) ， 我 们 可 以 将 ” 





y ~ ply | w) (20.56) 


重 写 为 
y = f(z;w) (20.57) 


其 中 z 十 随机 性 的 来 源 。 只 要 {f 是 儿 乎 处 处 连续 可 微 的 ， 我 们 残 可 以 使 
用 传统 工具 【例如 应 用 于 f 的 反问 传播 算法 ) 计算 y 相 对 于 ”的 导数 。 
PRERE, w DAE ze, Az DRE w 的 函数 。 这 种 技术 
通常 被 称 为 重 参数 化 技巧 (reparametrization trick) 、 随 机 反 向 传播 
(stochastic back-propagation) 或 扰动 分 机 (perturbation analysis) 。 


要 求 { 是 连续 可 微 的 ， 当 然 需 要 y 是 连续 的 。 如 果 我 们 希望 通过 产生 离 
敬 值 样本 的 采样 过 程 进行 有 反问 传播 ， 则 可 以 使 用 强化 学 习 算法 〔 如 
REINFORCE 算 法 (Williams, 1992) 的 变 体 ) 来 估计 wu 上 的 梯度 ， 这 
将 在 第 20.9.1 节 中 讨论 。 


在 神经 网 络 应 用 中 ， 我 们 通 利 选 择 从 一 些 徐 单 的 分 布 中 采样 z ， 如 单位 
均匀 分 布 或 单位 高斯 分 布 ， 并 通过 网 络 的 确定 性 部 分 重 塑 其 输入 来 实现 
更 复杂 的 分 布 。 


通过 随机 操作 扩展 梯度 或 优化 的 想法 可 退 调 到 20 世 纪 中 叶 (Price, 

1958; Bonnet, 1964) ， 并 且 痛 完 在 强化 学 习 (Wiliams, 1992) 的 情 

景 下 用 于 机 器 和 学习。 最 这 ， 它 已 补 应 用 于 变 分 近似 (Opper and 
Archambeau, 2009) 和 随机 生成 神经 网 络 (Bengio et al. ，2013b; 

Kingma, 2013; Kingma and Welling, 2014b, a; Rezende et al. , 

2014; Goodfellow et al. , 2014c) 。 许 多 网 络 ， 如 去 噪 自 编 码 器 或 使 用 
Dropout 的 正则 化 网 络 ， 也 被 目 然 地 设计 为 将 噪声 作为 输入 ， 而 不 需要 

任何 特殊 的 重 参数 化 吏 能 使 噪声 独立 于 模型 。 


20.9.1 通过 离 衣 随机 操作 的 反 回 传播 

当 模 型 发 射 离散 变量 y 时， 重 参数 化 技巧 不 再 适用 。 假 设 模型 采用 输入 
x MSA O0, PERI REHNE w 中 ， 并 且 将 它们 与 随机 噪声 z 组 合 
以 产生 : 


g= FiO) (20.58) 


因为 y 是 离散 的 ，{f 几 须 是 一 个 阶 跃 函 数 。 阶 跃 函 数 的 导数 在 任何 点 都 
是 没 用 的 。 在 每 个 阶 路 边界， 导数 是 未 定义 的 ， 但 这 十 一 个 小 问题 。 大 
问题 是 导数 在 阶 路 边界 之 间 的 区 域 几 乎 处 处 为 零 。 因 此 ， 任 何 代 价 函 数 
IC y ) 的 如 数 无 法 给 出 如 何 更 新 人 柑 型 参数 9 的 任何 信息 。 


REINFORCE 算 法 (REward Increment = nonnegative FactorxOffset 
ReinforcementxCharacteristic Eligibility) 提供 了 定义 一 系列 简单 而 强大 
解决 方案 的 框架 CWiliams, 1992) 。 其 核心 思想 是 ， 即 使 
J( f(z; w)) ERA TCH SAIN STARA, PREAH 
Ezp) (f (2; w)) EE ERMAR F RRA GTA PE. BL y xe Tey AE 
(或 者 古 许 多 离散 随机 决 朱 组 合 的 结果 )〉 IY, PEI ye EAR. E 
我 们 可 以 使 用 双 特 卡 罗 平 均 进 行 无 偏 估计 。 榜 上 度 的 随机 估计 可 以 与 5GD 
或 其 他 基于 随机 梯度 的 优化 技术 一 起 使 用 。 


通过 和 窗 单 地 敏 分 期 望 成 本 ， 我 们 可 以 推导 出 REINFORCE 最 简单 的 厂 
本 : 





E.[J(y)]| = >》 J(y)p(y) (20.59) 
y 
ƏELJ (y) _ Əp(y) npn 
ge 2TH) o (20.60) 
7 _, ,Olog ply) = 
= 2 J(y)p(y) (20.61) 
1 — j Dlog p(y) a 
~ 一 -P U O (20.62) 


Tk (20.60) 依赖 于 J 不 直接 引用 w 的 假设 。 放 松 这 个 假设 来 扩展 该 方 
法 是 简单 的 。 式 (20.61) 利用 对 数 的 导数 规则 ， 


Plog p(y) _ _1 OP(Y) . R (20.62) 给 出 了 该 梯度 的 无 偏 芝 
Ow ply) Ow 
特 卡 罗 估 计 。 


在 本 节 中 我 们 写 的 p(y) ”， 可 以 等 价 地 写成 p(y | a) ”。 这 是 因为 
p(y) EG Bat, FAW x FE, WC) 包含 9 和 x 两 者 。 


向 单 REINFORCE 佑 计 的 一 个 问题 是 其 共有 非常 局 的 方 震 ， 需 要 采 y 的 
许多 样本 才能 获得 对 梯度 的 民 好 估计 ， 或 者 等 价 地 ， 如 采 仅 绘制 一 个 样 
本 ， 则 SGD 将 收 合 得 非 向 绥 慢 并 将 需要 较 小 的 学习 率 。 退 过 使 用 方正 减 
小 Cvariance reduction) 方法 (Wilson, 1984; L'Ecuyer, 1994) ， 可 以 
地 减少 该 估计 的 方才 。 想 法 是 修改 佑 计量 ， 使 其 预期 全 保持 不 变 ， 但 方 
天 减 小 。 在 REINFORCE 的 情况 下 提出 的 方 兰 减 小 方法 ， 涉 及 计算 用 于 
Wit I( y ) 的 基线 (baseline) 。 注 意 ， 不 依 顿 于 y 的 任何 偏 移 b( w ) 都 不 
Se UE TT RE EB, AA 

















0 log p(y) r wep) Pe 
Ea = = 3 O P (20.63) 
= F, opty) (20.64) 
Ow 
y 
0 0 a 
= > ply) = ae (20.65) 
y 
o log p O log p O log p ET 
Evy) | (J(y) — b(w)) an = Ey) a Bo) Ea one (20.66) 
log p 
= Envy) J(y)- mal (20.67) 





此 外 ， 我 们 可 以 通过 计算 ( ,J (2%) 一 blw jes & = = Pa 
关于 p(y ) 的 方差 ， 并 关于 b(w ) 最 小 化 获得 最 优 b(ww ). Pea 
最 佳 基线 b* (w) WEE) 的 每 个 元 素 oi 是 不 同 的 ; 
Epy) Ty) tegen) 


Epy) | Stog ety)” | 


b (w)i = 


相对 于 oi BBE ah Ue Ay 


o log p 
(J(y)— blw i (20.69) 


其 中 b(w); 估计 上 述 b* (w); 。 获 得 估计 b 通 常 需要 将 额外 输出 添加 到 


神经 网 络 a 的 每 个 元 素 估 计 
Pr A log ply)” | O log ply)” ax 
Ey [I (y) ae |" E pty IS, IS  *® 


些 额外 的 输出 可 以 用 均 方 误差 目标 训练 ， mw 定 的 CU ， 从 p( yF 
样 y 时 ， 分 别 用 J(y ) o aame Ply É 和 log p(y)” 作 目 标 。 然 


TER C Cu, 
后 可 以 将 这 些 估计 代入 式 〈20.68) 就 能 恢复 估计 b。Mnih and 
Gregor (2014) W FEATHER y ) 训 练 的 单个 共 圣 输出 (跨越 
Ca) ARR ) ， 并 使 用 b(w) ~ Epal IY MIER. 


在 强化 学 习 背 景 下 引入 的 方 卉 减 小 方法 (Sutton et al. , 2000; Weaver 
and Tao, 2001) , Dayan (1990) 推广 了 二 值 奖励 的 前 期 工作 。 可 以 参 
#Bengio et al. (2013b) 、Mnih and Gregor (2014) . Ba et al. 
(2014) . Mnihet al. (2014) 或 Xu et al. (2015) 中 在 深度 学 习 的 背 
景 下 使 用 减少 方 关 的 REINFORCE 算 法 的 现代 例子 。 除 了 使 用 与 输入 相 
关 的 基线 b( w) ，Mnih and Gregor (2014) 发 现 可 以 在 训练 期 间 调 整 
(J (y) 一 b(w )) 的 尺度 《 即 除 以 训练 期 间 的 移动 平均 佑 计 的 标准 
A) ， 即 作为 一 种 适应 性 学 习 雍 ， 可 以 抵消 训练 过 程 中 该 量 大小 发 生 的 
重要 变化 的 影响 。Mmnih and Gregor (2014) 称 之 为 启发 式 方差 归 一 化 


(variance normalization) 。 


基于 REINFORCE 的 估计 器 可 以 被 理解 为 将 y ARRS y ) 的 对 应 值 相 
FKP. WIRES HERE FRAG EH y 的 民 好 值 ， 则 可 
能 需要 很 长 时 间 来 个 然 获 得 它 ， 并 且 获 得 所 需 信 号 的 配置 应 当 被 加 强 。 


20.10 ”有 问 生 成 网 络 

如 第 16 章 所 讨论 的 ， 有 辣 图 模型 构成 了 一 类 突出 的 图 模型 。 虽 然 有 问 图 
模型 在 更 大 的 机 器 学 习 社 群 中 非常 流行 ， 但 在 较 小 的 深度 学 习 社 群 中 ， 
大 约 二 到 2013 年 它们 都 掩 新 在 无 同 模 型 (如 RBM) 的 光彩 之 下 。 


在 本 节 中 ， 我 们 回顾 一 些 传统 上 与 深度 学 习 社 群 相关 的 标准 有 向 图 模 
型 


RICARDINA IF] A A ik 2 ERN. ERAT HA AY VA 
BUA rE RRA TR] AE SOE EY Pa hd HE SEP EASE NT Bt PE 
FAARWE, FERRE OS R RE A EPI la R 
{Te PRR & PAR FEE A FY A 


20.10.1 sigmoid{s 23) 28 


sigmoid 信 念 网 络 (Neal, 1990) -MERA TFE RKK AY A I 
柑 型 的 简单 形式 。 一 上段 来 说 ， 我 们 可 以 将 sigmoid 信 念 网 络 视 为 共有 二 
值 回 量 的 状态 s ， 其 中 状态 的 每 个 元 系 都 党 其 祖先 影 啊 ; 


plsi) = 0 | S Wjisj + | (20.70) 


j<i 


sigmoid AA BS RAEE AES A SG, AUER RE 
I — Aa ee THAT, PAR RARE RA SR SRE 
念 网 络 非常 相似 ， 但 它们 在 采样 过 程 开 始 时 的 单元 彼此 独立 ， 而 不 是 从 
受 限 玻 尔 效 曼 机 采样 。 这 种 结构 由 于 各 种 原因 而 令 人 感 兴趣 。 一 个 原因 
是 该 结构 是 可 见 单 元 上 概 座 分布 的 通用 近似 ， 即 在 中 够 深 的 情况 下 ， 可 
以 任意 民 好 地 近似 二 值 变 量 的 任何 概率 分 布 〈“ 即 使 各 个 层 的 宽度 受 限 于 
可 见 层 的 维度 ) (Sutskever and Hinton, 2008) . 


虽然 生成 可 见 单 元 的 样本 在 sigmoid 信 念 网 络 中 是 非常 高 效 的 ， 但 是 其 
他 大 多 数 操作 不 是 很 高 效 。 给 定 可 见 单 元 ， 对 隐藏 单元 的 推 朵 是 难 解 
的 。 因 为 变 分 下 界 涉 及 对 包含 整个 层 的 团 求 期 望 ， 均 匀 场 推 半 也 是 难以 
处 理 的 。 这 个 问题 一 直 困 难 到 足以 限制 有 加 离散 网 络 的 普及 。 


在 sigmoid 信 念 网 络 中 执行 推 其 的 一 种 方法 是 构造 专用 于 sigmoid 信 念 网 
络 的 不 同 下 界 (Saul et al. , 1996) 。 这 种 方法 只 适用 于 非常 小 的 网 
络 。 另 一 种 方法 是 使 用 学 成 推 半 机 制 ， 如 第 19.5 贡 中 描述 的 。Helmholtz 
机 (Dayan et al. , 1995; Dayan and Hinton, 1996) 结合 了 一 个 sigmoid 
i 2 P23 SS ba ik GE or tH SBA HET o sigmoid 
信念 网 络 的 现代 方法 (Gregor et al. , 2014; Mnih and Gregor, 2014) 
仍然 使 用 这 种 推 其 网 络 的 方法 。 因 为 洲 变 量 的 离散 本 质 ， 这 些 拉 术 仍 然 
是 困难 的 。 人 们 不 能 简单 地 通过 推断 网 络 的 输出 反问 传播 ， 而 必须 使 用 
相对 不 可 徘 的 机 制 即 通 过 离散 采样 过 程 进行 反 同 传播 (如 第 20.9.1 节 所 


述 ) 。 最 近 基 于 重要 采样 、 重 加 权 的 醒 眠 CBornschein and Bengio， 
2015) 或 双向 Helmholtz 机 (Bornschein et al. , 2015) 的 方法 使 得 我 们 
可 以 快速 训练 sigmoid 信 念 网 络 ， 并 在 基准 任务 上 达到 最 好 的 表现 。 


sigmoid 信 念 网 络 的 一 种 特殊 情况 是 没有 潜 变 量 的 情况 。 在 这 种 情况 下 
学 习 是 高 效 的 ， 因 为 没有 必要 将 潜 变 量 边缘 化 到 似 然 之 外 。 一 系列 称 为 
目 回 归 网 络 的 模型 将 这 个 完全 可 见 的 信念 网 络 沁 化 到 其 他 类 型 的 变量 
(RETE) 和 其 他 结构 〈 除 对 数 线 性 关系 〉 的 条 件 分 布 。 自 回归 网 
络 将 在 第 20.10.7 节 中 描述 。 


20.10.2 ”可 做 生成 硕 网 络 


许多 生成 模型 基于 使 用 可 微 生 成 妖 网 络 Cgenerator network) 的 想法 。 
这 种 模型 使 用 可 微 函数 g(z: 9(9)) 将 潜 变 量 的 样本 变换 为 样本 x 或 样 
本 x 上 的 分 布 ， 可 人 微 函数 通常 可 以 由 神经 网 络 表 示 。 这 类 模型 包括 将 生 
成 强 网 络 与 推 师 网 络 配 对 的 变 分 上 自 编码 右 ， 将 生成 右 网 络 与 判别 帮 网 络 
配对 的 生成 式 对 抗 网 络 ， 以 及 抓 立 地 训练 生成 葡 网 络 的 技术 。 


生成 鼎 网 络 本 质 上 仪 是 用 于 生成 样本 的 参数 化 计算 过 程 ， 其 中 的 体系 结 
构 所 供 了 从 中 采样 的 可 能 分 布 族 以 及 选择 这 些 族 内 分 布 的 参数 。 


作为 示例 ， 从 具有 均值 p 和 协 方 莽 的 正 态 分 布 绘制 样本 的 标准 过 程 是 
将 来 日 零 均值 和 和 单位 协 方 莽 的 正 态 分 布 的 样本 z 人 馈送 到 非常 简单 的 生成 
佛 网 络 中 。 这 个 生成 右 网 络 只 包含 一 个 仿 射 层 : 

= g(2) — gt + Le (20.71) 
其 中 工 HE 的 Cholesky 分 解 给 出 。 


伪 随 机 数 发 生 大 也 可 以 使 用 人 徐 单 分 布 的 非 线 性 变换 。 例 如 ， 逆 变换 采样 
(inverse transform sampling) (Devroye, 2013) 从 U(0,1) 中 采 一 个 标量 
zZ， 并 且 对 标量 x 应 用 非 线性 变换 。 在 这 种 情况 下 ，g(2) 由 累积 分 布 函数 
Pin) = fo. plu)dvu 的 有 反 函 数 给 出 。 如 果 我 们 能 够 指定 P(x)， 在 x 上 积 
A FP UAT TS PAY Sz PRIM, BOTT AN A SE La E A Re MA P(x) EAT OR 


为 了 从 更 复杂 的 分 布 〈“ 难 以 直接 指定 、 难 以 积分 或 难以 求 所 得 积分 的 反 


KAO 中 生成 样本 ， 我 们 使 用 击 馈 网 络 来 表示 非 线 性 函数 g 的 参数 族 ， 
并 使 用 训练 数据 来 推断 参数 以 选择 所 期 户 的 函数 。 


我 们 可 以 认为 g 提 供 了 变量 的 非 线 性 变化 ， 将 z 上 的 分 布 变 换 成 x 上 想 要 
的 分 布 。 


HII (3.47 ， 对 于 可 求 反 图 数 的 、 可 徽 的 、 连 续 的 g， 


pz(Z) a Px(g(Z)) 





Og 
det(=2)| (20.72) 
Xka GHEX x 施加 概率 分 布 : 

pz(g (#)) 
| 


p= 


Pr(£) = (20.73) 
当然 ， 取 决 于 g 的 选择 ， 这 个 公式 可 能 难以 评估 ， 因 此 我 们 经 党 需要 使 
用 间接 学 习 g 的 方法 ， 而 不 是 直接 尝试 最 大 化 log p(x )。 


在 某 些 情况 下 ， 我 们 使 用 g 来 定义 x 上 的 条 件 分 布 ， 而 不 是 使 用 g 直 接 提 
E x 的 样本 。 例 如 ， 我 们 可 以 使 用 一 个 生成 颖 网 络 ， 其 最 后 一 层 由 
sigmoid 输 出 组 成 ， 可 以 提供 Bernoulli 分 布 的 平均 参数 : 


H [= 1| 2) — gle) (20.74) 


在 这 种 情况 下 ， 我 们 使 用 g 来 定义 p( x | z ) 时 ， 通 过 边缘 化 z 来 对 x 施 
加 分 布 : 


ga) 一 E pæ | 2) (20.75) 


两 种 方法 都 定义 了 一 个 分 布 ps ( x )， 并 允许 我 们 使 用 第 20.9 节 中 的 重 参 
数 化 技巧 来 训练 p 的 各 种 评估 准则 。 


表示 生成 融 网 络 的 两 种 不 同方 法 ( 友 出 条 件 分 布 的 参数 相对 和 卫 接 友 冉 样 
fit) BA LAMAR © SAE Mar ZR TE x 上 定义 条 件 分 布 时 ， 它 不 但 
能 生成 连续 数据 ， 也 能 生成 离 秘 数 据 。 当 生成 带 网 络 且 接 提 供 来 样 时 ， 
eH er REAR ae RATE PATE RITE TEP SLA UC, TEOMA 
意味 看 模型 不 再 能 够 使 用 反问 传 播 进行 训练 ) 。 下 接 采 样 的 优点 是 ， 我 


TIA FE EA Ro O DAA 5 St ORF ASS a EAT NBL 
操作 的 形式 ) 。 


基于 可 人 微 生成 融 网 络 的 方法 是 由 分 类 可 微 前 馈 网 络 中 构 度 下 降 的 成 功 应 
用 而 推动 的 。 在 监督 学 习 的 育 景 中 ， 基 于 梯度 训练 学 习 的 深度 前 饥 网 络 
在 给 定 足 够 的 隐藏 单元 和 下 够 鸭 训练 数据 的 情况 下 ， 在 实践 中 似乎 能 保 
证 成 功 。 这 个 同样 的 方案 能 成 功 转移 到 生成 陈 建 模 上 吗 ? 


生成 式 建 模 似乎 比分 类 或 回归 更 困难 ， 因 为 学 习 过 程 需 要 优化 难以 处 理 
的 准则 。 在 可 短 生 成 右 网 络 的 情况 中 ， 准 则 十 难以 处 理 的 ， 因 为 数据 不 
指定 生成 器 网 络 的 输入 z 和 输出 x 。 在 监督 学 习 的 情况 下 ， 输 入 x 和 输 
出 y 同时 给 出 ， 并 且 优 化 过 程 只 需 学 习 如 何 产生 指定 的 映射 。 在 生成 建 
模 的 情况 下 ， 学 习 过 程 需 要 确定 如 何以 有 用 的 方式 排 布 z ASIA], DA Ae Bi 
外 的 如 何 从 z BREN BI x 。 


Dosovitskiy et al. (2015) 研究 了 一 个 简化 问题 ， 其 中 z 和 x 之 间 的 对 
MAAC. RAR, MAB RASA tS Al. yee ae 
z EARI NBR, FHI Spa TRAE HT A A ln] 
ERR HAMAMA. 1 AE BAD e 
i VARA AE Seas z WR BUY Ae RAE x 。 这 表明 当 现 代 可 微 生 成 
独 网 络 具 有 在 够 的 模型 容量 时 ， 四 以 成 为 民 好 的 生成 模型 ， 并 且 现 代 优 
化 算法 具有 拟 合 它们 的 能 力 。 困 难 在 于 当 每 个 x 的 z 的 值 不 是 固定 的 且 
在 每 次 训练 前 是 未 知 时 ， 如 何 训 练 生 成 器 网 络 。 


在 接 下 来 的 革 节 中 ， 我 们 讨论 仅 给 出 x 的 训练 样本 ， 训 练 可 微 生 成 如 网 
络 的 几 种 方法 。 


20.10.3 ” 变 分 目 编 码 需 


变 分 目 编码 器 (variational auto-encoder, VAE) (Kingma, 2013; 
Rezende et al. , 2014) 是 一 个 使 用 学 好 的 近似 推断 的 有 辣 模 型 ， 可 以 纯 
粹 地 使 用 基于 梯度 的 方法 进行 训练 。 


为 了 从 模型 生成 样本 ，VAE 首 先 从 编码 分 布 pnodel (之 ) PRE z- 2 
后 使 样本 通过 可 微 生 成 名 网 络 g( Z )。 最 后 ， 从 分 布 
Dmodel(LZ;9(LZ)) = pmodel( 卫 | Z) 中 采样 x 。 然 而 在 训练 期 


间 ， 近 似 推断 网 络 〈 或 编码 器 ) g(z | a) ”用 于 获得 z ,而 
Pmodel(& | 之 ) 则 被 视 为 解码 器 网 络 。 


变 分 自 编 码 器 背后 的 关键 思想 是 ， 它 们 可 以 通过 最 大 化 与 数据 点 x 相关 
联 的 变 分 下 界 人 L(g ) 来 训练 : 
L(q) = Eita log wavastl 2, a) + H(q(z | x )) (20.76) 
a Bee og (alad log Pmodea l E | z) = Dx (q(z | T) | DPraodel(Z)) (20.77) 
< lë Pode! (E) (20.78) 


ÆI (20.76) F, RATHER UUW AE E a a Sor BA A EE 
变量 的 联合 对 数 似 然 性 (正如 EM 一 样 ， 不 同 的 是 我 们 使 用 近似 而 不 是 
精确 后 验 ) . WAEA a. SQ BRIE PE ey TP A 
SLA Te a ay YS IE POU EEL, RO IRS EZ FR Sn HE mE) 
hg. E— AH, RC BE OD is Soe fa eS BE Pe 
生 x 的 许多 z WE, OA ESP MTR A. FER 
(20.77) 中 ， 我 们 将 第 一 项 视 为 在 其 他 目 编 码 器 中 出 现 的 重 构 对 数 似 
然 ， 第 二 项 试图 使 近似 后 验 分 布 q( z | x ) 和 模型 先 验 pyyoqel (之 ) 彼此 
接近 。 


BE) FEIT A I NR RTI EM RTE, WA EIR INDIA 

FIRE CRAVAT) o HEARERS, Fe ELIE A me A RI SO 
Ez~g log Pmodei (Z, £) 。 变 分 自 编码 器 背后 的 主要 思想 是 训练 产 
生 gq 参 数 的 参数 编码 器 (有 时 也 称 为 推断 网 络 或 识别 模型 ，》。 只 要 z 是 
连续 变量 ， 我 们 就 可 以 通过 从 gq (之 | x) = qlz; f(a; 日)) 中 采样 
z 的 样本 反问 传播 ， 以 获得 相对 于 6 的 梯度 。 学 习 则 仪 包括 相对 于 编码 
器 和 解码 器 的 参数 最 大 化 。 /中 的 所 有 期 望都 可 以 通过 蒙特 卡 罗 采 
样 来 近似 。 


变 分 目 编 码 问 方法 是 优雅 的 ， 理 论 上 令 人 愉快 的 ， 并 且 易 于 实现 。 它 也 
获得 了 出 色 的 结束 ， 征 生成 陈 建 模 中 的 最 先进 方法 之 一 。 它 的 主要 缺 操 
是 从 在 图 像 上 训练 的 变 分 上 日 编码 可 中 采样 的 样本 往往 有 些 模 糊 。 这 种 现 
象 有 的 原因 疝 不 清楚 。 一 种 可 能 性 是 ， 模 糊 性 是 最 大 似 然 的 固有 效应 ， 
为 我 们 需要 最 小 化 DkL (Paata||Pmodel ) 。 如 图 3.6 所 示 ， 这 意味 看 
模型 将 为 训练 集中 出 现 的 点 分 配 高 的 概率 ， 但 也 可 能 为 其 他 点 分 配 遍 的 


WE. WR AA JE AET ELS AR. FEA e FE E J Be T R 
ARM AS ce T Ta A a op A eB oP eR Ale, SCP EA Ro) A 1 
TED modell £5 9( 之 )) 使 用 高 斯 分 布 。 最 大 化 这 种 分 布 似 然 性 的 下 
界 与 训练 具有 均 方 误差 的 传统 目 编码 器 类 似 ， 这 意味 着 它 倾 癌 于 忽略 由 
少量 像 双 表示 的 特征 或 其 中 党 上 度 变 化 微小 的 像素 。 如 Theis et al. 
(2015) 和 Huszar (2015) 指出 的 ， 该 问题 不 是 VAE 特 有 的 ， 而 是 与 优 
化 对 数 似 然 或 DT (Ddata||Pmodel) 的 生成 模型 共 孕 的。 现代 VAE 
模型 太一 个 厂 烦 的 问题 是 ， 它 们 倾 癌 于 仅 使 用 z FERED SE, TR 
crate 能 够 将 具有 足够 局 部 方 辐 的 输入 空间 变换 到 边缘 分 布 与 分 解 前 
匹配 的 空间 。 


VAE 框 架 可 以 直接 扩展 到 大 范围 的 模型 架构 。 相 比 玻 尔 兹 曼 机 ， 这 是 关 
键 的 优势 ， 因 为 玻 尔 效 受 机 需要 非常 仔细 地 设计 模型 来 保持 易 解 性 。 
VAE 可 以 与 广泛 的 可 微 算 子 族 一 起 良好 工作 。 一 个 特别 复杂 的 VAE 是 深 
度 循 环 注意 写 者 (DRAW) 模型 (Gregor et al., 2015) 。DRAW 使 用 
一 个 循环 编码 器 和 循环 解码 器 并 结合 注意 力 机 制 。DRAW 模 型 的 生成 过 
时 包括 顺序 访问 不 同 的 小 图 像 块 并 绘制 这 些 点 处 的 像素 值 。 我 们 还 可 以 
通过 在 VAE 框 架 内 使 用 循环 编码 器 和 解码 器 定义 变 分 RNN (Chung et al. 
，2015b) 来 扩展 VAE 以 生成 序列 。 从 传统 RNN 生 成 样本 仅 在 输出 空间 
涉及 非 确 定性 操作 。 而 变 分 RNN 还 具有 由 VAE 潜 变量 捕获 的 潜在 更 抽象 
层 的 随机 变化 性 。 


VAE 框 名 己 不 仅仅 扩展 到 传统 的 变 分 下 界 ， 还 有 重要 加 权 目 编码 益 
(importance-weighted autoencoder) (Burdaetal., 2015) 的 目标 : 
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这 个 新 的 目标 在 k 二 1 时 等 同 于 传统 的 下 界 人 。 然 而 ， 它 也 可 以 被 解释 
为 基于 提议 分 布 g( 之 | a) 中 z 的 重要 采样 而 形成 的 真实 
log Pmodel (x ) taire EZIN A nids H 标 也 是 ]og Pmodel ( T ) 
WTA FPA Beak Jn i Ae Fe ER 

AEG} A aha MP-DBMAI EC th Aci I (AE AY Be I Fe TIA 


一 些 有 趣 的 联系 〈Goodfellow et al. , 2013d; Stoyanov et al. , 2011; 
Brakel etal. , 2013) > HED AN iA i e vA I SIA AO EE 


上 条 过 程 来 提供 计算 图 。 变 分 目 编码 器 被 定义 为 任意 计算 图 ， 这 使 得 它 能 
适用 于 更 广泛 的 概率 模型 话 ， 因 为 它 不 需要 将 模型 的 选择 限制 到 具有 易 
处 理 的 均匀 场 不 动 点 方程 的 那些 模型 。 变 分 日 编码 右 还 具有 增加 模型 对 
数 似 然 边界 的 优点 ， 而 MP-DBM 和 相关 模型 的 准则 更 具 局 发 性 ， 并 且 除 
ll 下 本 准确 外 很 少 有 概率 的 解释 。 变 分 日 编 但 规 的 一 个 缺 

它 仅 针对 一 个 问题 学 习 推 新 网 络 ， 即 给 定 x FET z 。 较 老 的 方法 能 
= eis at scale ae a cree ee Oa A] 
ene omnes wees Ptah a AZ ARES 


变 分 日 编码 器 的 一 个 非常 好 的 特性 是 ， 同 时 训练 参数 编码 器 与 生成 器 网 
络 的 组 合 迫 使 模型 学 习 一 个 编码 器 可 以 捕获 的 可 预测 的 坐标 系 。 这 使 得 
它 成 为 一 个 优秀 的 流 形 学 习 算 法 。 图 20. 6 展示 了 由 变 分 自 编码 器 学 到 的 
低 维 流 形 的 例子 。 图 中 所 示 的 情况 之 一 ， 算 法 发 现 了 存在 于 面部 图 像 中 
两 个 独立 的 变化 因素 : 旋转 角 和 情绪 表达 。 
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120.6 HED A Sah ae H ra EA FE — ZEB py ARP aN Kingma and Welling, 
2014a) 。 我 们 可 以 在 纸 上 直 接 绘 制 两 个 可 视 化 的 维度 ， 因 此 可 以 使 用 二 维 潜在 编码 训练 模型 来 
了 解 模 型 的 工作 原理 《即使 我 们 认为 数据 流 形 的 固有 维度 要 高 得 多 ) 。 图 中 所 示 的 图 像 不 是 来 


自 训练 集 的 样本 ， 而 是 仅仅 通过 改变 二 维 “ 编 码 ”z ， 由 模型 p( x | z ) 实 际 生 成 的 图 像 x (ESE 
像 对 应 于 “编码 ”z 位 于 二 维 均 匀 网 格 的 不 同 选 择 ) 。 CAL) Frey 人 脸 流 形 的 二 维 映 射 。 其 中 一 个 
维度 (水 平 ) 已 发 现 大致 对 应 于 面部 的 旋转 ， 而 另 一 个 〈 竺 直 ) 对 应 于 情绪 表达 。 Cf) 
MNIST¥it 72 HI — FERRY 





20.10.4 生成 陈 对 抗 网 络 


生成 式 对 抗 网 络 〈generative adversarial network, GAN) (Goodfellow 
etal., 2014c) 是 基于 可 微 生 成 喜 网 络 的 另 一 种 生成 陈 建 模 方法 。 


生成 式 对 抗 网 络 基 于 博 奔 论 场景 ， 其 中 生成 需 网 络 必须 与 对 手 竞 争 。 生 
成 器 网 络 直接 产生 样本 z = g(z: 09) 。 其 对 手 ， 判 别 器 网 络 

(discriminator network) 试图 区 分 从 训练 数据 抽取 的 样本 和 从 生成 如 抽 
KIER. Ayia t Hdr: 0‘) 给 出 的 概率 值 ， 指 示 x 是 真实 训练 
样本 而 不 是 从 模型 抽取 的 伪造 样本 的 概率 。 


形式 化 表示 生成 式 对 抗 网 络 中 学 习 的 最 简单 方式 是 零 和 游戏 ， 其 中 函数 
(69), 0) 确定 判别 器 的 收益 。 生 成 器 接收 _w(9(9), @) 作为 它 自 
己 的 收益 。 在 学 习 期 间 ， 每 个 玩家 尝试 最 大 化 自己 的 收益 ， 因 此 收敛 在 


g = argmin max v(g.d) (20.80) 
9 
v 的 默认 选择 是 
00 0) 一 下 logd(z) 十 下 log(1 — d(a)) (20.81) 
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梯度 的 近似 。 当 max a v(g ,d) 在 09 中 是 凸 的 〈 例 如 ， 在 概率 密度 函数 
的 空间 中 直接 执行 优化 的 情况 ) 时 ， 访 过程 保 证 收敛 并 且 是 潮 近 一 致 
的 。 

不 蔷 的 是 ， 在 实践 中 由 神经 网 络 表示 的 g 和 d 以 及 max a vg ,d) ASIN, 


GAN 中 的 学 习 可 能 是 困难 的 。Goodfellow (2014) 认为 不 收敛 可 能 会 引 
起 GAN 的 欠 拟 合 问题 。 一 般 来 襄 ， 同 时 对 两 个 玩家 的 成 本 梯度 下 降 不 能 


RUBIA EP A. PIO, FEMER va b=ab, FLA —-S SrA feilladt 
产生 成 本 ab， 而 万 一 玩家 控制 bp 并 接收 成 本 -ab。 如 宋 我 们 将 每 个 玩家 建 
模 为 无 穷 小 的 柳 度 步骤 ， 每 个 玩家 以 万 一 个 玩家 为 代价 降低 目 己 的 成 
本 ， 则 a 和 Pb 进入 稳定 的 圆 形 轨 迹 ， 而 不 是 到 达 原 点 处 的 平衡 点 。 注 意 ， 
极 小 极 大 化 游戏 的 平衡 不 是 v 的 局 部 最 小 值 。 相 反 ， 它 们 是 同时 最 小 化 
的 两 个 玩家 成 本 的 扣 。 这 意味 看 它们 是 Vv 的 鞠 点 ， 相 对 于 第 一 个 玩家 有 
参数 是 局 部 最 小 值 ， 而 相对 于 第 二 个 玩家 的 参数 是 局 部 最 大 值 。 两 个 玩 
家 可 以 永远 轮流 增加 然后 减少 vy， 而 不 是 正好 俘 在 玩家 没有 能 力 降 低 其 
成 本 的 欧 点 。 目 前 不 知道 这 种 不 收敛 的 问题 会 在 多 大 程度 上 影响 GAN。 


Goodfellow (2014) 确定 了 另 一 种 符 代 的 形式 化 收益 公式 ， 其 中 博 春 不 
PERM, BES AUTRE TOI, FA SAAS H E AY PO FE 

AACA VI RY, AGAN EAN BIR TE 29 ZEAE AE ASS 1 DY 
AWS. ANSE AE, TOPPER TRAST SUMP SEA pe Ty SE BG AAS US, 

AY Bee SF ll a AR TE Bu E 5 HES ee EY ay J E o 
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似 然 ， 而 是 Good-fellow et al. (2014c) 引入 的 带 有 局 发 式 动 机 的 不 同形 
去 化 。 在 这 种 最 佳 性 能 的 形式 中 ， 生 成 亏 自 在 增加 判 列 需 发 生 错 误 的 对 
数 概率 ， 而 不 是 旨 在 降低 判别 右 进 行 正 确 预测 的 对 数 概 率 。 这 种 重 述 仅 
仪 是 观察 的 结果 ， 即 使 在 判别 问 人 确信 拒绝 所 有 生成 棍 样 本 的 情况 下 ， 它 
也 能 导致 生成 右 代 价 函 数 的 导数 相对 于 判别 右 的 对 数 保持 很 大 。 


稳定 GAN 学 习 仍 然 是 一 个 开放 的 问题 。 笠 和 运 的 是 ， 当 仔细 选择 模型 架构 
和 超 参 数 时 ，GAN 学 习 效 果 很 好 。Radford et al. (2015) 设计 了 一 个 深 
EE4sfAGAN (DCGAN) ， 在 图 像 合 成 的 任务 上 表现 非常 好 ， 并 表明 其 
潜在 的 表示 空间 能 捕获 到 变化 的 重要 因素 ， 如 图 15.9 所 示 。 图 20.7 展 示 
了 DCGAN 生 成 器 生成 的 图 像 示 例 。 





图 20.7 在 LSUN 数 据 集 上 训练 后 ， 由 GAN 生成 的 图 像 。 〈 左 ) 由 DCGAN 模 型 生成 的 卧室 图 像 ， 
经 Radford etal. (2015) 许可 转载 。 (CA) 由 LAPGAN 模 型 生成 的 教 党 图像 ， 经 Denton et al. 
(2015) 许可 转载 


GAN 学 习 问 题 也 可 以 通过 将 生成 过 程 分 成 许多 级 别 的 细 市 来 简化 。 我 们 
可 以 训练 有 条 件 的 GAN (Mirza and Osindero, 2014) ， 并 学 习 从 分 布 p( 
x | y) 中 采样 ， 而 不 是 简单 地 从 边缘 分 布 p( x ) 中 采样 。Denton et al. 
(2015) 表明 一 系列 的 条 件 GAN 可 以 和 被 训练 为 首先 生成 非 钊 低 分 辨 座 的 
图 像 ， 然 后 增 量 地 辐 图 像 添 加 细节 。 由 于 使 用 拉 普 拉 斯 金字 塔 来 生成 包 
含 不 同 细节 水 平 的 图 像 ， 这 种 技术 被 称 为 LAPGAN 模 型 。LAPGAN 牛 成 
俐 个 仅 能 够 欺 驴 判别 颖 网 络 ， 而 且 能 够 其 驴 人 类 观 聚 者 ， 实 验 主 体 将 融 
达 40% 的 网 络 输出 识别 为 真实 数据 。 请 看 图 20.7 中 LAPGAN 生 成 器 生成 
的 图 像 示 例 。 


GAN 训练 过 程 中 一 个 不 寻 和 名 的 能 力 是 它 可 以 拟 合 同 训练 点 分 配 雪 概率 的 
概率 分 布 。 生 成 厚 网 络 学 习 跟 踩 特 定点 在 东 种 程度 上 关 似 于 训练 氮 的 这 
形 ， 而 不 是 最 大 化 该 点 的 对 数 概率 。 有 点 矛盾 的 是 ， 这 意味 着 模型 可 以 
将 负 无 穷 大 的 对 数 似 然 分 配给 测试 集 ， 同 时 仍然 表示 人 类 观察 者 判断 为 
能 捕获 生成 任务 本 质 的 流 形 。 这 不 是 明显 的 优点 或 缺 操 ， 并 且 只 要 问 生 
成 耸 网 络 最 后 一 层 所 有 生成 的 信 奈 加 高 斯 噪声 ， 融 可 以 保证 生成 蕉 网 络 
问 所 有 氮 分 配 非 堆 概率。 以 这 种 方式 染 加 融 斯 噪声 的 生成 夫 网 络 从 相同 
分 布 中 采样 ， 即 ， 从 使 用 生成 禹 网 络 参数 化 条 件 蜗 斯 分 布 的 均值 所 获得 
的 分 布 中 采样 。 


Dropout 似 乎 在 判别 强 网 络 中 很 重要 。 特 别 地 ， 在 计算 生成 强 网 络 的 榜 
度 时 ， 单 元 应 当 被 随机 地 丢 莽 。 使 用 权 午 除 以 二 的 确定 性 版 本 的 判别 此 
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训练 其 他 关 型 的 模型 。 例 如 ， 目 监督 提升 (self-supervised boosting) 可 
DH TF UIZRRBMZE ca CAI Sn 2 8 BAF as (Welling et al. , 
2002) 。 


20.10.5 ”生成 矩 匹 配 网 络 


生成 矩 匹 配 网 络 (generative moment matching network) (Li et al. , 
2015; Dziugaite et al. , 2015) 是 男 一 种 基于 可 微 生 成 器 网 络 的 生成 模 
型 。 与 VAE 和 GAN 人 不同， 它们 不 需要 将 生成 融 网 络 与 任何 其 他 网 络 配 
对 ， 例 如 不 需要 与 用 于 VAE 的 推 关 网络 配对 ， 也 不 需要 与 GAN 的 判 询 
fit P26 CT o 


生成 和 矩 匹 配 网 络 使 用 称 为 怎 匹 配 (moment matching) WIERY. FH 
玫 配 背后 的 基本 思想 是 以 如 下 的 方式 训练 生成 妖 令 柑 型 生成 的 样本 
的 许多 统计 量 尽 可 能 与 训练 集中 的 样本 相似 。 在 此 情景 下 ， 算 
(moment) 是 对 随机 变量 不 同 虹 的 期 望 。 例 如 ， 第 一 算 是 均值 ， 第 二 
窍 是 平方 值 的 均值 ， 以 此 类 推 。 多 维 情况 下 ， 随 机 回 量 的 每 个 元 素 可 以 
委 升 高 到 不 同 的 慰 ， 因 此 使 得 算 可 以 是 任意 数量 的 形式 


Ea | | 77" (20.82) 





其 中 m = [ni1, mn2,… na] 是 一 个 非 负 整 数 的 向 量 。 


在 第 一 次 检查 时 ， 这 种 方法 似乎 在 计算 上 是 不 可 行 的 。 例 如 ， 如 果 我 们 
想 匹 配 形式 为 x;x; 的 所 有 甜 ， 那 么 我 们 需要 最 小 化 在 x 的 维度 上 是 二 次 
的 多 个 值 之 间 的 差 。 此 外 ， 甚 至 匹配 所 有 第 一 和 第 二 矩 将 仅 足以 拟 合 多 
变量 高 斯 分 布 ， 其 仅 捕获 值 之 间 的 线性 关系 。 我 们 使 用 神经 网 络 的 野心 
是 捕获 复杂 的 非 线性 关系 ， 这 将 需要 更 多 的 矩 。GAN 通 过 使 用 动态 更 新 
的 判别 器 避免 了 穷 举 所 有 和 矩 的 问题 ， 该 判别 器 自动 将 其 注意 力 集中 在 生 
成 器 网 络 最 不 匹配 的 统计 量 上 。 


FAI, PRATT AY DA a te I) PR A AE SY it Ze (maximum mean 
discrepancy, MMD) (Schölkopf and Smola, 2002; Gretton et al. , 
2012) 的 代价 函数 来 训练 生成 窍 匹 配 网 络 。 该 代价 函数 通过 同 核 函 数 定 
义 的 特征 空间 隐 式 映射 ， 在 无 限 维 空间 中 测量 第 一 算 的 误 碟 ， 使 得 对 无 
AAA 
CTE 


WAAAY TE, OR AE KEVLAR ERAS A RO AE SAIS HY 

xe» EATE DOW ROR E a 8 SO nie Zh ORE. AC, V HA 
ita AEIR. BPR. H imta WAS as HS RG EP ll RSS AS 
PRIN FAAS 7 A]. PA Sa UI ARAL ait PN AEREE, CE i RE AS H] 
DAZE AAAS a RS Bl A DE ES AGS EAB o 


GAND E], Are AMA STE IYI OR H UI RGR PAE Sc a E HY SE 
FE Lo RIIA H REE IR ETE A — PU RE AS BOR H AE Ces PO 25) 
NFER HY PRB, EAA URE RET AVE 2 PAS oP Peo SS 
批量 大 小 太 小 时 ，MMD 可 能 低估 采样 分 布 的 真实 变化 量 。 有 限 的 批量 
大 小 都 不 足以 大 到 完全 消除 这 个 问题 ， 但 是 更 大 的 批量 大 小 减少 了 低估 
的 量 。 当 批量 大 小 太 大 时 ， 训 练 过 程 束 会 慢 得 不 可 行 ， 因 为 计算 蛙 个 小 
标 度 步 长 必须 一 下 子 处 理 许多 样本 。 


与 GAN 一 样 ， 即 使 生成 占 网 络 为 训练 点 分 配 零 概 京 ， 也 可 以 使 用 MMD 
训练 生成 如 网 络 。 


20.10.6 FRA BR 24 


“AE BABIN, KERT SAE ica PO 28 Es ze AA 
Goodfellow et al. (2014c) 或 Dosovitskiy et al. (2015) 的 例子 ) . X 
ih, BNE SAR A eS”, EROS ATIN. ORT YA i Ber E 
Pg RANA. FPA ECA MEA A ae SA ER A ED WB Be 


FF vA SAE WEER N RA MER BY A BR ET OA E 
类 标签 ) PERA. SAA BOR 24 iA] EmA, ME RRRA 
INTA ERMIR, TEES. EEREN R, aa 
HR. EAE MN AR 2S IS EL A AR E AE E EE E 
后 产生 图 像 的 最 终 表 示 ， 这 个 最 终 表示 当然 古市 有 所 有 细 市 的 精细 图 像 


本 映 《〈 其 有 对 象 位 置 、 姿 势 、 纹 理 以 及 明 蜡 ) 。 在 若 积 识别 网 络 中 丢 莽 
信息 的 主要 机 制 是 池 化 层 ， 而 生成 亏 网 络 似乎 需要 添加 信息 。 由 于 大 多 
数字 化 函数 不 可 提 ， 我 们 不 能 将 季 化 层 求 刻 后 放 入 生成 需 网 络 。 更 简单 
的 操作 是 仅仅 增加 表示 的 空间 大 小 。 似 乎 可 接 有 党 的 方法 是 使 用 
Dosovitskiy et al. (2015) 5A WEW”. TAR M FEE fl LAR 
FREA AWARE. FIG, BOAT BR VEY 27 AD OR AS Tt K 
AN TERE HR, BEX AN EN a A A BBE N A EA SBI A. o 
BU» (ewe RESO DX AN TA SERNA 2S EE ESE A RA NS 
FRSC AE, (VETO RAR Fe. AH BRE aD 
Bu—-S ake, JAAR BECMEL 4a A BY 28 TB] A pa h Eya CH AIE TB] A 
Pixke FEBUBKE CUMIN AZ) . BNE BK nS ithe FE X Be 
征 不 现实 的 ， 后 续 层 也 能 够 学 习 补 偿 其 不 寻 第 的 输出 ， 所 以 由 整体 模型 
生成 的 样本 在 视觉 上 令 人 满意 。 


20.10.7 AAR Zs 


A EHN ec R EL NT ES RA. XERRA ENR 
RAYA HH SHS ZR IN CEN xe Oe Tad BLE SHS Aae e) 。 
XERA KREE. EATE DAE SY ee YZ WU OP} PL RS 
量 上 的 联合 概率 ， 从 而 获得 形 如 已 (Zy | tg_1,°++ ,Z1) 条 件 概率 
的 乘积 。 这 样 的 模型 被 称 为 完全 可 见 的 册 叶 斯 网 络 Cfully-visible Bayes 
networks, FVBN) ， 并 成 功 地 以 许多 形式 使 用 首先 是 对 每 个 条 件 
分 布 逻辑 回归 (Frey, 1998) ， 然 后 是 带 有 隐藏 单元 的 神经 网 络 
(Bengio and Bengio, 2000b; Larochelle and Murray，2011) 。 在 某 些 
形式 的 自 回归 网 络 中 ， 例 如 在 第 20.10.10 中 描述 的 NADE (Larochelle 
and Murray, 2011) ， 我 们 可 以 引入 参数 共 孕 的 一 种 形式 ， 它 能 市 来 统 
计 优 点 《 较 少 的 唯一 参数 ) 和 计算 优势 〈 较 少 计算 量 ) o KERRY 
中 反复 出 现 的 主题 一 一 特征 重用 的 另 一 个 实例 。 


20.10.8 ”线性 目 回 归 网 络 


目 回 归 网 络 的 最 简单 形式 是 没有 隐藏 单元 、 没 有 参数 或 特征 共享 的 形 
式 。 每 个 忆 (Zi |Li—1, ,2Z1) 被 参数 化 为 线性 模型 《对 于 实 值 数 
据 的 线性 回归 ， 对 于 二 值 数据 的 逻辑 回归 ， 对 于 离散 数据 的 softmax 回 
H) 。 这 个 模型 由 Frey (1998) 引入 ， 当 有 4d 个 变量 要 建 模 时 ， 该 模型 





有 OO(d2) 个 参数 ， 如 图 20.8 所 示 。 


图 20.8 ”完全 可 见 的 信念 网 络 从 前 i-1 个 变量 预测 第 i 个 变量 。 (上 ) FVBN 的 有 问 图 模型 。 
(下 ) 对 数 FYBN 相 应 的 计算 图 ， 其 中 每 个 预测 由 线性 预测 器 作出 


如 来 变量 是 连续 的 ， 线 性 目 回 归 网 络 只 是 表示 多 元 局 斯 分 布 的 为 一 种 方 
式 ， 只 能 捕获 观察 变量 之 间 线 性 的 成 对 相互 作用 。 


线性 目 回归 网 络 本 质 上 是 线性 分 类 方法 在 生成 式 建 模 上 的 推广 。 因 此 ， 
EMRA SATE A ae AAC RARE Rae PE, “ETAT LAE 
Min BBV, AHAN VEAL SO CONFETTI O 。 像 线性 
Ram PE, BRAD AS Et Ape ee A ee I, K 25 5 A EE fe 
术 《“ 如 输入 的 基 扩 展 或 核 撤 巧 ) 来 近 局 容量 。 


20.10.9 ”神经 自 回 归 网 络 


神经 自 回 归 网 络 (Bengio and Bengio, 2000a, b) 具有 与 逻辑 自 回归 网 
络 相同 的 从 左 到 右 的 图 模型 〈 见 图 20.8) ， 但 在 该 图 模型 结构 内 采用 不 


辣 的 条 件 分 布 参数 。 新 的 参数 化 更 强大 ， 它 可 以 根据 需要 随意 增加 容 

量 ， 并 允许 近似 任意 联合 分 布 。 新 的 参数 化 还 可 以 引入 深度 学 习 中 种 见 
的 参数 共享 和 特征 共 宇 原理 来 改进 沁 化 能 力 。 设 计 这 些 模型 的 动机 是 避 
免 传统 表格 图 模型 引起 的 维 数 灾难 ， 并 与 图 20.8 共 至 相同 的 结构 。 在 表 
格 离散 概率 模型 中 ， 每 个 条 件 分 布 由 概率 表 表 示 ， 其 中 所 涉及 的 变量 的 
每 个 可 能 配置 部 具有 一 个 条 目 和 一 个 参数 。 通 过 使 用 神经 网 络 ， 可 以 获 
得 两 个 优点。 


(1) 通过 具有 (i-TDxk 个 输入 和 k 个 输出 的 神经 网 络 〈 如 末 变 量 是 离散 的 
并 有 k 个 值 ， 使 用 one-hot 编 码 ) 参数 化 每 个 已 (Zi | Ti;_1,:…* ,XI1 

， 让 我 们 不 需要 指数 量 级 参数 《和 样本 ) WTA BRETT AES 

然而 仍然 能 够 捕获 随机 变量 之 则 的 融 阶 依赖 性 。 


(2) 不 需要 对 预测 每 个 x ， 使 用 不 同 的 神经 网 络 ， 如 图 20.9 所 示 的 从 左 
到 右 连接 ， 人 允许 将 所 有 神经 网 络 合并 成 一 个 。 等 价 地 ， 它 意味 着 为 预测 
x ; 所 计算 的 隐藏 层 特征 可 以 重新 用 于 预测 x jg, (k>0) 。 因 此 隐藏 音 
元 被 组 织 成 第 i 组 中 的 所 有 单元 仅 依赖 于 输入 值 x | ，...，x ; 的 特定 的 
组 。 用 于 计算 这 些 隐藏 单元 的 参数 被 联合 优化 以 改进 对 序列 中 所 有 变量 
的 预测 。 这 是 重用 原理 的 一 个 实例 ， 这 是 从 循环 和 卷 积 网 络 架构 到 多 任 
务 和 迁移 学 习 的 场景 中 反复 出 现 的 深度 学 习 原 理 。 


图 20.9 ”神经 自 回归 网 络 从 前 -1 个 变量 预测 第 i 个 变量 x ; ， 但 经 参数 化 后 ， 作 为 x 1 o xA 
数 的 特征 (表示 为 hj 的 隐藏 单元 的 组 可 以 在 预测 所 有 后 续 变量 x ; | 1 ，x; | 2，...，x gd 时 重 
用 


如 在 第 6.2.2.1 节 中 讨论 的 ， 使 神经 网 络 的 输出 预测 x ; 条 件 分 布 的 参数 ， 
每 个 已 (Zi| iy, +++ ,1) 就 可 以 表示 一 个 条 件 分 布 。 虽然 原始 神 
经 目 回 归 网 络 最 初 古 在 纯粹 离散 多 变量 数据 ( 币 有 sigmoid 输 出 的 
Bernoullj 弯 量 或 softmax 输 出 的 Multinoulli 弯 量 ) 的 背景 下 评估 ， 但 我 们 
0 
联合 分 布 。 


20.10.10 NADE 


神经 自 回 归 密 度 估计 器 (neural auto-regressive density estimator, 
NADE) 是 最 近 非 常 成功 的 神经 目 回 归 网 络 的 一 种 形式 (Larochelle and 
Murray, 2011) . 43Bengio and Bengio (2000b) 的 原始 神经 日 回归 网 
络 中 的 连接 相同 ， 但 NADE 引 入 了 附加 的 参数 共 且 方案， 如 图 20.10 所 
示 。 不 同 组 j 的 隐 世 单元 的 参数 是 共 且 的 。 


W. 


FA i | 


S O 


120.10 ”神经 自 回 归 密 度 估计 器 (NADE)〉 的 示意 图 。 隐 藏 单元 被 组 织 在 组 h 四 中， 使 得 只 有 
输入 x 1 ，..….，Xxi 参 与 计算 h 人 和 预测 (ZX; | j1, ,XT1) (对 于 j>i) 。NADE 
用 特定 的 权重 共享 模式 区 别 于 早期 的 神经 自 回归 网 络 : W = Wei 被 共享 于 所 有 从 xi 到 任 


W. 1 W. 1 











何 这 ji 组 中 第 k 个 单元 的 权重 《在 图 中 使 用 相同 的 线 型 表示 复制 权重 的 每 个 实例 ) 。 注 意 回 量 
(Wii, Wais- , Wna) tes W. i 


从 第 i 个 输入 xi 到 第 组 隐藏 单元 的 第 k 个 元 素 h7) (j > 让 的 权重 W , ; 是 
组 内 共享 的 ; 


Wiki = Wey (20.83) 
其 余 j<i 的 权重 为 0。 


Larochelle and Murray (2011) 选择 了 这 种 共享 方案 ， 使 得 NADE 模 型 中 
的 正 回 传播 与 在 均 勺 场 推 关 中 执行 的 计算 大 致 相似 ， 以 填充 RBM 中 人 缺 
失 的 输入 。 这 个 均匀 场 推 新 对 应 于 运行 具有 共享 权重 的 循环 网 络 ， 并 且 
该 推断 的 第 一 步 与 NADE 中 的 相同 。 使 用 NADE 的 唯一 区 别 是 ， 连 接 隐 
蕊 单元 到 输出 的 输出 权重 独立 于 连接 输入 单元 和 隐藏 单元 的 权重 进行 参 
数 化 。 在 RBM 中 ， 隐 蕊 到 输出 的 权重 是 输入 到 隐藏 权重 的 转 置 。NADE 
架构 可 以 扩展 为 不 仅仅 模拟 均匀 场 人 循环 推断 的 一 个 时 间 步 ， 而 是 k 步 。 
这 种 方法 称 为 NADE-k (Raiko etal. , 2014) 。 


如 前 所 述 ， 目 回归 网 络 可 以 被 扩展 成 处 理 连 续 数 据 。 用 于 参数 化 连续 密 
虐 的 特别 强大 和 通用 的 方法 是 混合 权 军 为 a (组 i 的 系数 或 先 验 概 
率 ) ， 每 组 条 件 均值 为 p ; 和 每 组 条 件 方差 为 go 的 高 斯 混合 体 。 一 个 称 
为 RNADE 的 模型 (Uria et al. , 2013) 使 用 这 种 参数 化 将 NADE 扩 展 到 
实 值 。 与 其 他 混合 黎 度 网 络 一 样 ， 访 分 布 的 参数 是 网 络 的 输出 ， 由 
softmax 单 元 产生 混合 的 权 量 概率 以 及 参数 化 的 方才 ， 因 此 可 使 它们 为 
正 的 。 由 于 条 件 均值 H ; 和 条 件 方差 o; 之 团 的 相互 作用 ， 随 机 梯度 下 降 
在 数值 上 可 能 会 表现 不 好 。 为 了 减少 这 种 困难 ，Uria et al. (2013) 在 
后 同 传 播 阶 段 使 用 伪 梯 上 度 代 从 平均 值 上 的 梯度 。 


男 一 个 非常 有 趣 的 神经 目 回 归 染 构 的 扩展 摊 脱 了 为 观察 到 的 变量 选择 任 
意 顺 序 的 需要 (Murray and Larochelle, 2014) 。 在 自 回归 网 络 中 ， 访 
想法 是 训练 网 络 能 够 通过 随机 采样 顺序 来 处 理 任何 顺序 ， 并 将 信息 提供 
给 指定 哪些 输入 被 观 穴 的 隐 医 单元 《在 条 件 条 的 右 侧 ) ， 以 及 哪些 是 被 
预测 并 因此 被 认为 是 缺失 的 〈 在 条 件 条 的 左 侧 ) 。 这 是 不 错 的 性 质 ， 
为 它 允 许 人 们 非常 蜗 效 地 使 用 训练 好 的 目 回 归 网 络 来 执行 任何 推 师 问题 
( 即 从 给 定 任何 变量 的 子 集 ， 从 任何 子 集 上 的 概 深 分 布 预 测 或 采样 〉。 


最 后 ， 由 于 变量 的 许多 顺序 是 可 能 的 〈 对 于 n 个 变量 是 n1l) ， 并 且 变 量 
的 每 个 顺序 o 产 生 不 同 的 pG | 0)， 我 们 可 以 组 成 许多 o 值 模型 的 集成 : 


k 
1 , E 
EN =) = } » p(x | o)) (20.84) 
' 1 


IP Be ACE Gs Pe EZ, FF AWS oo A SE Ae EA 
单个 模型 更 局 的 概率 。 


在 同一 遍 文 草 中 ， 作 者 提出 了 深 展 版 本 的 染 构 ， 但 不 外 的 是 ， 这 立即 使 
计算 成 本 像 原 始 神 经 目 回 归 网 络 一 样 高 〈Bengio and Bengio， 

2000b) 。 第 一 层 和 输出 层 仍然 可 以 在 C 〇 (7 太 ) ”的 乘法 -加 法 操作 中 计 
算 ， 如 在 常规 NADE 中 ， 其 中 h 是 隐藏 单 元 的 数量 (图 20.10 和 图 20.9 中 

的 组 h ; 的 大 小 )， 而 它 在 Bengio and Bengio (2000b) 中 是 O(n h) 。 
然而 ， 对 于 其 他 隐藏 层 的 计算 量 是 O 〇 (m* 有 hh*) (假设 在 每 个 层 存在 n 组 h 
个 隐 忠 日 元 ， 且 在 l 层 的 每 个 “先前 ”组 参与 预测 1 十 1 层 处 的 “下 一 

个 ”组 ) 。 如 在 Murray and Larochelle (2014) 中 ， 使 ] 十 1 层 上 的 第 i 个 组 
仅 取 决 于 第 i 个 组 ，! 层 处 的 计算 量 将 减少 到 O(nh“) ， 但 仍然 比 瘦 规 
NADE 差 h 倍 。 : 


20.11 ME ant as ee 


ERUR, ANA BES Se ATHY Bia FETE AC. K 
BR H FS ase NC H SS is ZB A ARR RETR AR HEH RES 
ALE H FS ae ARENT EI To RTEA H 8 BA EY 
模型 中 采样 。 


菏 些 闫 型 的 目 编码 葵 ， 例 如 变 分 目 编 权 项， 明确 地 表示 概率 分 布 并 且 爷 
主 和 直接 的 原始 采样 。 而 大 多 数 其 他 类 型 的 目 编 码 右 则 需要 MCMC 采 样 。 


收缩 自 编码 器 被 设计 为 恢复 数据 流 形 切面 的 估计 。 这 意味 着 使 用 注入 噪 
声 的 重复 编 公 和 解码 将 引起 商厦 流 形 表面 的 随机 游 走 (Rifai et al. , 
2012; Mesnil et al. , 2012) 。 这 种 流 形 扩散 技术 是 马尔 可 夫 链 的 一 
种 。 


更 一 般 的 马尔 可 夫 链 还 可 以 从 任何 去 品目 编 但 春 中 采样 。 


20.11.1 5it MAME H oS 2s they) SRB KE 


EREE T SS ASSP eT A k A aR SS OR A ABE 

CEJ DAA A in ae (rh PN oo 7 AE RAE AS) o Bengio et al. (2013c) 展 
AN J UTR ER HFS A TR A Si g (generalized denoising 
autoencoder) WS RAKE. J MAME SatSas HAM ASE, ME 
损坏 输入 后 ， 对 干 泽 输入 的 估计 进行 采样 。 


根据 估计 分 布 生 成 的 马尔 可 夫 链 的 每 个 步骤 由 以 下 子 步 又 组 成 ， 如 图 
20.11 所 示 。 





图 20.11 马尔 可 夫 链 的 每 个 步 又 与 训练 好 的 去 噪 自 编码 器 相关 联 ， 根 据 由 去 噪 对 数 似 然 准 则 隐 
式 训 练 的 概率 模型 生成 样本 。 每 个 步骤 包括 : 〈a) 通过 损坏 过 程 C 向 状态 x 注入 噪声 产生 m ; 
(b)》 用 函数 {对 其 编码 , 产生 及 = f(x); © 用 函数 g 解 码 结果 ， 产 生 用 于 重 构 分 布 的 双 
wo): @ 给 定 (UW ， 从 重 构 分 布 p(X | w = gf (T))) REIRE. EH 
方 重 构 误差 情况 下 g(h) = a. ， 并 估计 Ela | x], ， 损 坏 包括 添加 高 斯 噪声 ， 并 且 从 
D(X|C ) 的 采样 包括 第 二 次 向 重 构 也 添加 高 斯 噪声 。 后 者 的 噪声 水 平 应 对 应 于 重 构 的 均 方 误 
差 ， 而 注入 的 噪声 是 控制 混合 速度 以 及 估计 器 平滑 经 验 分 布 程度 的 超 参数 (Vincent, 2011) 。 
在 所 示 的 例子 中 ， 只 有 C 和 p 条 件 是 随机 步骤 (f 和 g 是 确定 性 计算 ) ， 我 们 也 可 以 在 自 编码 器 内 
部 注入 噪声 ， 如 生成 随机 网 络 (Bengio etal., 2014) 


D 从 先前 状态 x 开始 ， 注 入 损坏 噪声 ， 从 C( 冠 | av) PREE ， 
(2) Kop 编码 为 h = f(x) - 














(3) 解码 h 以 获得 p(X | w = g(h)) = p(x | 2) 的 参数 
w = g(h). 


(4) 从 p(X | w = g(h)) = p(x | T) RH PKA x .- 


Bengio et al. (2014) 表明 ， 如 果 自 编码 器 p(X | T) 形成 对 应 真实 条 
件 分 布 的 一 致 估计 量 ， 则 上 述 马 尔 可 夫 链 的 平稳 分 布 形成 数据 生成 分 
iix WI BU the (里 然 古 隐 式 的 )。 


20.11.22 ” 夹 合 与 条 件 有 采样 


与 玻 尔 效 曼 机 类 似 ， AR A StS a 及 其 推广 〈 例 如 下 面 摘 述 的 GSN) 可 
用 于 从 条 件 分 布 P(X y | w] HOKE, JA ARAME p 并 在 给 定 X 
f FURIE SAE E (部 果 有 的 话 ) 下 仅 重 采样 目 由 单元 x 。。 例 如 ，MP- 
DBM 可 以 航 解 释 为 去 品目 编码 硕 的 一 种 形式 ， 并 且 和 肯 # 够 采样 丢失 的 输 
入 。GSN 随 后 将 MP-DBM 中 的 一 些 想法 推广 以 执行 相同 的 操作 (Bengio 
etal., 2014) . Alain etal. (2015) 从 Bengio et al. (2014) 的 命题 1 中 
及 现 了 一 个 缺失 条 件 ， 即 转移 算 了 于 《由 从 链 的 一 个 状态 到 下 一 个 状态 的 
随机 映射 定义 ) 应 该 满足 细致 平衡 (detailed balance) 的 属性 ， 表 明 无 
Ve Fe he FF IETF SIT, SRA AEA CRAP 


在 图 20.12 中 展示 了 夹 合 一 半 像 素 〈 图 像 的 右 部 分 ) 并 在 另 一 半 上 运行 
马尔 可 夫 链 的 实验 。 
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下 可 夫 链 的 示 音 图。 这 些 样 


: 


图 20.12 ”在 每 步 仅 重 采 样 左 a 夹 合 图 像 的 右 半 部 分 并 运行 马 
本 来 自重 构 MNIST 数 字 的 GSN 〈 每 个 时 间 步 使 用 回 退 过 程 ) 


20.11.3 [BIR VI ARE 


回 退 训练 过 程 由 Bengio et al. (2013c) 等 人 提出 ， 作 为 一 种 加 速 去 品目 
编 但 融 生 成 训练 收 伍 的 方法 。 不 像 执 行 一 步 编 但 -解码 重建 ， 该 过 程 有 

代 答 的 多 个 随机 编 但 -解码 步骤 组 成 〈《 如 在 生成 马尔 可 夫 链 中 ) ， 以 训 

练 样本 初始 化 《正如 在 第 18.2 丰 中 描述 的 对 比 散 度 算 法 ) ， 并 惩 旭 最 后 
的 概率 重建 《〈 或 治 途 的 所 有 重建 ) 。 


训练 k 个 步 缀 与 训练 一 个 步 又 是 等 价 的 《在 实现 相同 稳 态 分 布 的 意义 
上 ) ， 位 是 实际 上 可 以 吉 有 效 地 去 除 来 自 数 据 的 优 模 式 ， 


20.12 生成 随机 网 络 


生成 随机 网 络 ( generative stochastic network, GSN) (Bengio et al. , 
2014) Æ AMR A ISASI > BRIR GHANA ) 之 外 ， 在 
AE AM By OR AY RE Hs ee ch 。 


GSN 由 两 个 条 件 概率 分 布 参数 化 ， 指 定 马尔 可 夫 链 的 一 步 


(1) p(x”) | h'*)) 指示 在 给 定 当前 潜在 状态 下 如 何 产生 下 一 个 可 见 
赤 量 。 这 种 “重建 分 布 ” 也 可 以 在 去 品目 编 但 器、RBM、DBN 和 DBM 中 
找到 。 


(2) (I) | WPL) x-1) 指示 在 给 定 先前 的 潜在 状态 和 可 见 变 
量 下 如 何 更 新 潜在 状态 变量 。 


去 品目 纺 公 右 和 GSN 不 同 于 经 典 的 概率 模 开 《有 同 或 无 同 ) ， 它 们 目 己 
参数 化 生成 过 程 ， 而 不 是 通过 可 见 和 潜 变 量 的 联合 分 布 的 数学 形式 。 相 
反 ， 后 者 如 条 存在 则 隐 却 地 定义 为 生成 与 尔 可 去 链 的 称 态 分 布 。 人 存在 稳 
态 分 布 的 条 件 是 温和 的 ， 并 且 需 要 与 标准 MCMC 方 法 相同 的 条 件 《〈 见 第 
17.375) 。 这 些 条 件 是 保证 链 混 合 的 必要 条 件 ， 但 它们 可 能 被 芭 些 过 疲 
分 布 的 选择 例如 ， 如 果 它 们 是 确定 性 的 ) 所 和 违反。 


我 们 可 以 想象 GSN 不 同 的 训练 准则 。 由 Bengio et al. (2014) 提出 和 评 
估 的 只 对 可 见 单元 上 对 数 概 识 的 重建 ， 如 应 用 于 去 噪 上 日 编码 桌 。 通 过 
将 x O = x 夹 合 到 观察 到 的 样本 并 且 在 一 些 后 续 时 间 步 处 使 生成 x 的 概 
率 最 大 化 ， 即 最 大 化 log p(x) = a | h), KPA) 一 r 
ja, h (9 从 链 中 采样 。 为 了 估计 相对 于 模型 其 他 部 分 的 
log p(x) — 7 | h'*)) 的 梯度 ， Bengio et al. (2014) 使 用 了 在 第 
20.9 市 中 介绍 的 重 参 数 化 技巧 。 


回 退 训 纤 过 程 〈 在 第 20.11.3 末 中 搞 述 ) 可 以 用 来 改善 训练 GSN 的 收敛 性 
(Bengio etal. , 2014) . 


20.12.1 ”判别 性 GSN 


GSN 的 原始 公式 (Bengio et al. , 2014) 用 于 无 监督 学 习 和 对 观察 数据 x 
的 p(x ) 的 隐 式 建 模 ， 但 是 我 们 可 以 修改 框架 来 优化 p(y | x )。 


例如 ，Zhou and Troyanskaya (2014) 以 如 下 方式 推广 GSN: 只 反 同 传 
播 输出 变量 上 的 重建 对 数 概率 ， 并 你 持 输 入 变量 固定 。 他 们 将 这 种 方式 
成 功 应 用 于 建 模 序 列 〈 和 蛋白 质 二 级 结构 ) ， 并 在 马尔 可 夫 链 的 转换 算 子 
中 引入 《一 维 ) 卷 积 结构 。 重 要 的 是 要 记 住 ， 对 于 马尔 可 夫 链 的 每 一 

步 ， 我 们 需要 为 每 个 层 生 成 新 序列 ， 并 且 访 序列 用 于 在 下 一 时 间 步 计算 


其 他 层 的 值 〈《 例 如 下 面 一 个 和 上 面 一 个 ) 的 输入 。 


因此 ， 马 尔 可 夫 链 确实 不 只 是 输出 变量 〈 与 更 局 层 的 隐 茂 层 相 关联 ) ， 
并 且 输 入 序列 仅 用 于 条 件 化 该 链 ， 其 中 反问 传 播 使 得 它 能 够 学 习 输 入 订 
列 如 何 条 件 化 由 号 尔 可 夫 链 隐 谷 表示 的 输出 分 布 。 因 此 这 十 在 结构 化 输 
出 中 使 用 GSN 的 一 个 例子 。 


Zohrer and Pernkopf (2014) 引入 了 一 个 混合 模型 ， 通 过 人 简单 地 添加 
《使 用 不 同 的 权重 ) 监督 和 非 监督 成 本 即 Yy 和 x 的 重建 对 数 和 概率 ， 组 合 
了 监督 目标 《如 上 面 的 工作 〉 和 无 监督 目标 〈 如 原始 的 GSN) 。 
Larochelle and Bengio (2008a) 以 前 在 RBM 中 束 提 出 了 这 样 的 混合 标 
准 ， 他 们 展示 了 在 这 种 方案 下 分 类 性 能 的 提升 。 


20.13 ”其 他 生成 方案 


目前 为 止 我 们 已 经 描述 的 方法 ， 使 用 MCMC 有 采样、 原始 采样 或 两 者 的 一 
些 混合 来 生成 样本 。 虽 然 这 些 是 生成 式 建 模 中 最 流行 的 方法 ， 但 它们 绝 
不 是 唯一 的 方法 。 


Sohl-Dickstein et al. (2015) 开发 了 一 种 基于 非 平 衡 热 力学 学 习 生 成 模 
AWN BUSY (diffusion inversion) 训练 方案 。 该 方法 基于 我 们 希望 从 
中 采样 的 概率 分 布 具 有 结构 的 想法 。 这 种 结构 会 被 递增 地 使 概率 分 布 具 
ARS SID BON FEA. AS IG RA RRA, RTT AY DA Beat ee 
AT IZ, WEE VI SSE SEY A. I PH 
应 用 使 分 布 更 接近 目标 分 布 的 过 程 ， 我 们 可 以 逐渐 接近 该 目标 分 布 。 在 
涉及 许多 欠 代 以 产生 样本 的 意义 上 ， 这 种 方法 类 似 于 MCMC 方 法 。 然 
而 ， 模 型 被 定义 为 由 链 的 最 后 一 步 产 生 的 概 鞋 分布。 在 这 个 意义 上 ， 没 
有 由 迭代 过 程 诱 导 的 近似 。Sohl-Dickstein et al. (2015) 介绍 的 方法 也 
非常 接近 于 去 品目 编码 颖 的 生成 解释 (第 20.11.1 广 ) . SAUER A Bah as 
一 样 ， 扩 散 反 读 训 练 一 个 答 试 概率 撤销 入 加 噪声 效果 的 转移 算 子 。 不 同 
之 处 在 于 ， 扩 艇 反 汗 只 需要 消除 扩散 过 程 的 一 个 步骤 ， 而 不 是 一 直 返 回 
到 一 个 干 泽 的 数据 点 。 这 解决 了 去 品目 编码 右 的 普通 重建 对 数 似 然 日 标 
中 存在 的 以 下 两 难 问 题 : 小 噪 声 的 情况 下 学 习 者 只 能 看 到 数据 点 附近 的 
配置 ， 而 在 大 噪声 的 情况 下 ， 去 品目 编 公 堪 被 要 求 做 儿 乎 不 可 能 的 工作 
(因为 去 噪 分 布 是 高 上 度 复杂 和 多 峰值 的 ) 。 利 用 扩散 反 演 目标 ， 学 习 者 
可 以 更 精确 地 学 习 数 据点 周围 的 密度 形状 ， 以 及 去 际 可 能 在 远离 数据 点 


处 出 现 的 假 性 柑 式 。 


样本 生成 的 男 一 种 方法 是 近似 贝 叶 斯 计算 (approximate Bayesian 
computation, ABC) 框架 (Rubin etal. , 1984) 。 在 这 种 方法 中 ， 样 本 
航 拒 绝 或 修改 以 使 样本 选 定 函 数 的 窃 匹 配 期 望 分 布 的 那些 托 。 虽 然 这 个 
想法 与 窍 匹 配 一 样 使 用 样本 的 窍 ， 但 它 不 同 于 窍 匹 配 ， 因 为 它 修改 样本 
本 号 ， 而 不 是 训练 模型 来 自动 发 出 具有 正确 窍 的 样本 。Bachman and 
Precup (2015) 展示 了 如 何在 深度 学 习 的 背景 下 使 用 ABC 中 的 想法 ， 即 
使 用 ABC 来 塑造 GSN 的 MCMC 轨 迹 。 


我 们 期 待 更 多 等 待 发 现 的 其 他 生成 式 建 模 方法 。 
20.14 评估 生成 模型 


研究 生成 柑 型 的 研究 者 退 沼 需要 将 一 个 生成 模型 与 妨 一 个 生成 模型 比 
较 ， 通 昭 是 为 了 证 明 狐 友 明 的 生成 模型 比 之 前 存在 的 模型 更 能 捕获 一 些 
分 布 。 


这 可 能 是 一 个 困难 且 人 微妙 的 任务 。 退 第 ， 我 们 不 能 实际 评估 模型 下 数据 
的 对 数 概 率 ， 但 仅 可 以 评估 一 个 近似 。 在 这 些 情况 下 ， 香 要 的 是 思考 和 
沟通 清和 芭 正 在 训 量 什么 。 例 如 ， 假 设 我 们 可 以 评估 模型 A 对 效 似 然 的 随 
机 佑 计 和 模型 B 对 数 似 然 的 确定 性 下 界 。 如 宋 模 型 A 得 分 局 于 模型 B， 哪 
个 更 好 ? 如 果 我 们 关心 确定 哪个 模型 具有 分 布 更 好 的 内 部 表示 ， 我 们 实 
际 上 不 能 说 哪个 更 好 ， 除 非 我 们 有 一 些 方法 来 确定 模型 B 的 边界 有 多 
松 。 然 而 ， 如 果 我 们 天 心 在 实践 中 该 模型 能 用 得 多 好 ， 例 如 执行 弄 沼 检 
调 ， 则 基于 特定 于 感 兴 趣 的 实际 任务 的 准则 ， 可 以 公平 地 说 模型 是 更 好 
有 的， 例如 基于 排名 测试 样 例 和 排名 标准 ， 如 精度 和 召回 率 。 


评估 生成 模型 的 男 一 个 微妙 之 处 是 ， 评 估 指 标 往往 是 自身 困难 的 研究 问 
题 。 可 能 很 难 确 定 模 型 是 否 被 公平 比较 。 例 如 ， 假 设 我 们 使 用 AIS 来 估 
itlog Z， 以 便 为 我 们 刚刚 发 明 的 新 模型 计算 log p(a)—logZ 。 
AIS 计 算 经 济 的 实现 可 能 无 法 找到 模型 分 布 的 几 种 模式 并 低估 Z， 这 将 

导致 我 们 高 估 ]log plac) 。 因 此 可 能 难以 判断 高 似 然 估计 是 否 是 良好 模 
型 或 不 好 的 AIS 实 现 导 致 的 结果 。 


机 维和 学 习 的 其 他 领域 通 利 允许 在 数据 预 处 理 中 有 一 些 变 化 。 例 如 ， 当 比 


较 对 象 识 别 算 法 的 准确 性 时 ， 通 和 津 可 接受 的 是 对 每 种 算法 略微 不 同 地 预 
处 理 输 入 图 像 〈 基 于 每 种 算法 具有 何 种 输入 要 求 ) 。 而 因为 预 处 理 的 变 
化 ， 会 导致 生成 式 建 模 的 不 同 ， 甚 至 非常 小 和 微妙 的 变化 也 是 完全 不 可 
接受 的 。 对 输入 数据 的 任何 更 改 都 会 改变 要 捕获 的 分 布 ， 并 从 根本 上 改 
变 任 务 。 例 如 ， 将 输入 乘 以 0.1 将 人 为 地 将 概率 增加 10 倍 。 


了 预 处 理 的 问题 通 钊 在 基于 MNIST 数 据 集 上 的 生成 模型 产生 ，MNIST 数 
据 集 是 非常 受 欢迎 的 生成 式 建 模 基准 之 一 。MNIST 由 灰 度 图 像 组 成 。 一 
些 模型 将 MNIST 图 像 视 为 实 癌 量 空间 中 的 点 ， 而 其 他 模型 将 其 视 为 二 
值 。 还 有 一 些 将 灰 度 值 视 为 二 值 样本 的 概率 。 我 们 必须 将 实 值 模 型 仅 与 
其 他 实 值 模型 比较 ， 二 值 模 型 仅 与 其 他 二 值 模 型 进行 比较 。 人 否则， 测量 
的 似 然 性 不 在 相同 的 空间 。 对 于 二 值 模型 ， 对 数 似 然 可 以 最 多 为 零 ， 而 
对 于 实 值 模 型 ， 它 可 以 是 任意 高 的 ， 因 为 它 是 关于 密度 的 测度 。 在 二 值 
模型 中 ， 比 较 使 用 完全 相同 的 三 值 化 模型 是 重要 的 。 例 如 ， 我 们 可 以 将 
0.5 设 为 闷 值 后 ， 将 灰 度 像素 二 值 化 为 0 或 1， 或 者 通过 由 灰 度 像素 强度 
给 出 样本 为 1 的 概率 来 采 一 个 随机 样本 。 如 果 我 们 使 用 随机 二 值 化 ， 我 
们 可 能 将 整个 数据 集 二 值 化 一 次 ， 或 者 我 们 可 能 为 每 个 训练 步骤 采 不 同 
的 随机 样 例 ， 然 后 采 多 个 样本 进行 评估 。 这 三 个 方案 中 的 每 一 个 都 会 产 
生 极 不 相同 的 似 然 数 ， 并 且 当 比较 不 同 的 模型 时 ， 两 个 模型 使 用 相同 的 
二 值 化 方案 来 训练 和 评估 是 重要 的 。 事 实 上 ， 应 用 单个 随机 二 值 化 步 双 C 
的 研究 者 共享 包含 随机 二 值 化 结果 的 文件 ， 使 得 基于 二 值 化 步 又 的 不 同 
输出 的 结果 没有 差别 。 


因为 从 数据 分 布 生成 真实 样本 是 生成 模型 的 目标 之 一 ， 所 以 实践 者 通 名 
通过 视觉 检查 样本 来 评估 生成 模型 。 在 最 好 的 情况 下 ， 这 不 是 由 人 研究 人 
员 本 里 ， 而 是 由 不 知道 样品 来 源 的 实验 受 试 者 完成 (Denton et al. , 
2015) 。 不 滁 的 是 ， 非 常 天 的 概 浴 模型 可 能 会 产生 非常 好 的 样本 。 验 证 
模型 是 否 仪 复制 一 些 训练 示例 的 第 见 做 法 如 图 16.1 所 示 。 该 想法 是 根据 
在 xX 衬 间 中 的 欧 几 里 得 距离 ， 为 一 些 生 成 的 样本 显示 它们 在 训练 集中 的 
最 近邻 。 此 测试 旨 在 检测 模型 过 拟 合 训练 集 并 仅 再 现 训 练 实例 的 情况 。 
其 至 可 能 同时 欠 拟 合 和 过 拟 合 ， 但 仍然 能 产生 单独 看 起 来 好 的 样本 。 想 
象 一 下 ， 生 成 模型 用 狗 和 猎 的 图 像 训 练 时 ， 但 只 是 简单 地 学 习 来 重 现 狗 
的 训练 图 像 。 这 样 的 模型 明显 过 拟 合 ， 因 为 它 不 能 产生 不 在 训练 集中 的 
图 像 ， 但 是 它 也 灾 拟 合 ， 因 为 它 不 给 猪 的 训练 图 像 分 配 概率 。 然 而 ， 人 
类 观 罕 者 将 判断 狗 的 每 个 个 体 图 像 都 是 丽质 量 的 。 在 这 个 人 简单 的 例子 

中 ， 对 于 能 够 检查 许多 样本 的 人 类 观察 者 来 说 ， 确 定 猪 的 不 存在 是 容易 


的 。 在 更 实际 的 设 定 中 ， 在 有 具 有数 万 个 模式 的 数据 上 训练 后 的 生成 模型 
可 以 忽略 少数 模式 ， 并 且 人 类 观察 者 不 能 容易 地 检查 或 记 住 足够 的 图 像 
以 检测 丢失 的 变化 。 


由 于 样本 的 视觉 质量 不 是 可 徘 的 标准 ， 所 以 当 计 算 可 行 时 ， 我 们 通 各 还 
评 们 和 柑 型 分 配给 测试 数据 的 对 数 似 然 。 不 洱 的 是 ， 在 东 些 情况 下 ， 似 然 
性 似乎 不 可 能 测量 我 们 真正 关心 的 模型 的 任何 属性 。 例 如 ，MNIST 的 实 
值 便 型 可 以 将 任意 低 的 方 关 分 配给 从 不 改变 的 育 景 像 系 ， 获 得 任意 高 的 
似 然 。 即 使 这 不 是 一 个 非常 有 用 的 事情 ， 检 测 这 些 稼 量 特 征 的 恒 开 和 算 
法 也 可 以 获得 无 限 的 炎 励 。 实 现 接近 负 无 穷 代 价 的 可 能 性 存在 于 任何 实 
值 的 最 大 似 然 问 题 中 ， 但 是 对 于 MNIST 的 生成 模型 问题 尤为 严重 ， 因 为 
Ce 
也 方法 。 


Theis et al. (2015) 回顾 了 评估 生成 模型 所 涉及 网 许多 问题 ， 包 括 上 述 
的 许多 想法 。 他 们 强调 了 生成 模型 有 许多 不 同 的 用 途 ， 并 且 指 标的 选择 
必须 与 模型 的 预期 用 途 相 匹配 。 例 如 ， 一 些 生成 模型 更 好 地 为 大 多 数 丰 
实 的 点 分 配 高 概率， 而 其 他 生成 模型 擂 长 于 不 将 高 概率 分 配给 不 真实 的 
扩 。 这 些 牵 寞 可 能 源 于 生成 模型 是 设计 为 最 小 化 | 

D KL (Pdata | | 还 是 起 KL uoma | Panta) ， 如 贸 3.6 所 
示 。 不 于 的 是 ， 即 使 我 们 将 每 个 指标 的 使 用 限制 在 最 适合 的 任务 上 ， 目 
前 使 用 的 所 有 指标 仍 存在 严重 的 里 陷 。 因 此 ， 生 成 式 建 模 中 最 重要 的 研 
宛 诛 题 忆 一， 不 仅仅 是 如 何 提升 生成 模型 ， 事 实 上 还 包括 了 设计 靳 的 拉 
术 来 衡量 我 们 的 进步 。 


20.15 ”结论 


为 了 让 模型 理解 基于 给 定 训练 数据 表示 的 大 千 世 界 ， 训 练 具有 隐藏 单元 
的 生成 模型 是 一 种 有 力 方法 。 通 过 学 习 模 型 podqol (L) 和 表示 
pmodel (hh | £); EREET NRE x 输入 变量 之 间 关系 的 许多 推断 
问题 ， 并 且 可 以 在 不 同 层 对 hh 求 期 望 来 提供 表示 x 的 许多 不 同方 式 。 生 
成 模型 可 以 为 AI 系 统 提供 它们 所 要 理解 的 、 各 种 不 同 概念 的 框架 ， 让 它 
们 有 能 力 在 面 对 不 确定 性 的 情况 下 推理 这 些 概念 。 我 们 希望 读者 能 够 找 
到 增强 这 些 方法 的 新 途径 ， 并 继续 探究 智能 和 学 习 背 后 原理 的 旅程 。 


(1) 术语 “mcRBM”* 根 据 字 母 M-C-R-B-M 友 首 ;“mce”* 不 是“McDonald's” 中 的 “Mce” 的 发 首 。 


(2) ”这 个 版 本 的 Gaussian-Bermoulli RBM 能 量 孔 数 假定 图 像 数 据 的 每 个 像 系 具有 和 零 均 值 。 考 上 在 非 
零 像 妹 均值 时 ， 可 以 简单 地 将 像素 俩 移 谎 加 到 模型 中 。 


(3) ”该 论文 将 模型 描述 为 “深度 信念 网 络 ”， 但 因为 它 可 以 被 描述 为 纯 无 问 醒 型 《共有 易 处 理 逐 
层 均 匀 场 不 动 点 更 新 ) ， 所 以 它 最 适合 深度 玻 尔 兹 曼 机 的 定义 。 
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hx] 24 network 

神经 自 回 归 密 度 估 计 器 neural auto-regressive den-sity estimator 
神经 自 回 归 网 络 neural auto-regressive network 
神经 语言 模型 Neural Language Model 


神经 机 器 翻译 Neural Machine Translation 


神经 网 络 neural network 

神经 网 络 图 灵机 neural Turing machine 
牛顿 法 Newton's method 

n -gram n-gram 


HE tatr A 28 E Hno free lunch theorem 


噪声 分 布 noise distribution 

噪声 对 比 估 计 noise-contrastive estimation 
非 凸 nonconvVex 

韭 分 布 式 nondistributed 

非 分 布 式 表示 nondistributed representation 
JEZ PE SEE Æ nonlinear conjugate gradients 
非 线性 独立 成 分 估计 nonlinear independent com-ponents estimation 
非 参 数 non-parametric 

ya {norm 

正 态 分 布 normal distribution 

正规 方程 normal equation 

归 一 化 的 normalized 

标准 初始 化 normalized initialization 


数值 numeric value 


数值 优化 numerical optimization 
对 象 识 别 object recognition 
目标 objective 

目标 函数 objective function 
奥 卡 姆 刹 思 Occam's razor 
one-hot one-hot 

— WRF =] one-shot learning 
TE ZK online 

在 线 学 习 online learning 
操作 operation 

最 佳 容量 optimal capacity 
原点 origin 

正 交 orthogonal 

正 交 和 矩阵 orthogonal matrix 
标准 正 交 orthonormal 

输出 output 

输出 层 output layer 

过 完备 overcomplete 

过 估计 overestimation 


过 拟 合 overfitting 


过 拟 合 机 制 overfitting regime 

上 六 overflow 

并 行 分 布 式 处 理 Parallel Distributed Processing 
并 行 回 火 parallel tempering 

参数 parameter 

参数 服务 器 parameter server 
参数 共享 parameter sharing 

有 参 情况 parametric case 

参数 化 整流 线性 单元 parametric ReLU 

偏 导 数 partial derivative 

配 分 函数 Partition Function 

性 能 度量 performance measures 

性 能 度量 performance metrics 

置换 不 变性 permutation invariant 

持续 性 对 比 散 上 度 persistent contrastive divergence 
if A phoneme 

语音 phonetic 

分 段 piecewise 

点 估计 point estimator 


oS policy 


RIE policy gradient 

池 化 pooling 

池 化 函数 pooling function 

病态 条 件 poor conditioning 

正定 positive definite 

iE Hb K WWpositive part function 
正 相 positive phase 

半 正 定 positive semidefinite 

后 验 概率 posterior probability 

昭 方 法 power method 

PR 曲线 PR curve 

hii FE precision 

te Fe eh precision matrix 

HUM Pei Ei ay fe predictive sparse decomposition 
预 训练 pretraining 

初级 视觉 皮层 primary visual cortex 

主 成 分 分 析 principal components analysis 
先 验 概率 prior probability 

先 验 概率 分 布 prior probability distribution 


WPCA probabilistic PCA 


MEK 2K FE K BLprobability density function 
E284) Afi probability distribution 

WE Jd Æ K BLprobability mass function 
专家 之 积 product of expert 

乘法 法 则 product rule 

成 比例 proportional 

提议 分 布 proposal distribution 

伪 似 然 pseudolikelihood 


象限 对 quadrature pair 


三 | 


人 


量子 力学 quantum mechanics 

2 [| HE pK Btradial basis function 
随机 搜索 random search 

随机 变量 random variable 

值 域 range 

比率 匹配 ratio matching 

44 |B] recall 

接受 域 receptivefield 

再 循环 recirculation 

推荐 系统 recommender system 


重 构 reconstruction 


重 构 误 差 reconstruction error 

整流 线性 rectified linear 

整流 线性 变换 rectified linear transformation 
整流 线性 单元 rectified linear unit 

整流 网 络 rectifier network 

循环 recurrence 

循环 卷 积 网 络 recurrent convolutional network 
循环 网 络 recurrent network 

循环 神经 网 络 recurrent neural network 

回归 regression 

正则 化 regularization 

正则 化 regularize 

正则 化 项 regularizer 

强化 学 习 reinforcement learning 

天 系 relation 

天 系 型 数据 库 relational database 

重 参数 化 reparametrization 

重 参数 化 技巧 reparametrization trick 

表示 representation 


表示 学 习 representation learning 


表示 容量 representational capacity 

储 层 计算 reservoir computing 

ZS IRIX 2R 24 = A) LRestricted Boltzmann Machine 
反问 相关 reverse correlation 

有 反问 模式 系 加 reverse mode accumulation 
岭 回 归 ridge regression 

右 特征 问 量 right eigenvector 

右 奇 异 问 量 right singular vector 

凡 险 risk 

行 Tow 

扫 视 saccade 

+x H saddle point 

THe tiyEsaddle-free Newton method 
相同 same 

样本 均值 sample mean 

样本 方差 sample variance 


饱和 saturate 


得 分 匹配 score matching 


二 了 导数 second derivative 

二 阶 导 数 测 试 second derivative test 
第 二 层 second layer 

二 阶 方法 second-order method 

自 对 比 估 计 self-contrastive estimation 
目 信 息 self-information 

语义 哈 布 semantic hashing 

半 受 限 波 尔 效 曼 机 semi-restricted Boltzmann Ma-chine 
半 监 督 semi-supervised 

半 监 督学 习 semi-supervised learning 
可 分 离 的 separable 

分 离 的 separate 

4} separation 

情景 setting 

浅 度 回路 shadow circuit 

FR hj Shannon entropy 

#5 4% shannons 

#4 et shaping 

短 列表 shortlist 


sigmoid sigmoid 


sigmoid 信 念 网 络 sigmoid Belief Network 
简单 细胞 Simple cell 

奇异 的 singular 

异 值 singular value 
奇异 值 分 解 Singular value decomposition 
FF [4] singular vector 

跳跃 连接 skip connection 

慢 特 征 分 析 slow feature analysis 

慢性 原则 slowness principle 

平滑 smoothing 

平滑 先 验 smoothness prior 

softmax softmax 

softmax ci @softmax function 

softmax 单 元 softmax unit 

softplus softplus 

softplus FÅ #softplus function 

生成 子 空 间 span 

稀 玩 sparse 

Mi ist sparse activation 


Mi tim t4ysparse coding 


稀疏 连接 Sparse connectivity 

稀 玻 初始 化 Sparse initialization 

稀 焉 交互 Sparse interactions 

Fa MAX ŒE sparse weights 

vé spectral radius 

语音 识别 Speech Recognition 
sphering sphering 

尖峰 和 平板 spike and slab 
尖峰 和 平板 RBM spike and slab RBM 
虚假 模 态 spurious modes 

方 阵 square 

标准 差 standard deviation 
标准 差 standard error 

标准 正 态 分 布 standard normal distribution 
声明 statement 

平稳 的 stationary 

平稳 分 布 Stationary Distribution 

驻 点 stationary point 

zii t% statistic efficiency 


统计 学 习 理 论 statistical learning theory 


zi 1} He statistics 

最 陡 下 降 steepest descent 

随机 stochastic 

随机 谍 程 stochastic curriculum 

随机 梯度 上 升 Stochastic Gradient Ascent 
随机 梯度 下 降 stochastic gradient descent 
BENLE RE Stochastic Matrix 

随机 最 大 似 然 stochastic maximum likelihood 
流 stream 

步 幅 stride 

结构 学 习 structure learning 

结构 化 概率 模型 structured probabilistic model 
ZERE HE Wt structured variational inference 
W Ji T subatomic 

子 采 样 subsample 

求 和 法 则 sum rule 


ALAR PX] 24 sum-product network 


— 


监督 Supervised 


监督 学 习 supervised learning 


监督 学 习 算 法 supervised learning algorithm 


监督 模型 supervised model 
监督 预 训练 supervised pretraining 
支持 向 量 support vector 

代理 损失 函数 surrogate loss function 
ff symbol 

付 写 表示 symbolic representation 
对 称 symmetric 

切面 距离 tangent distance 

切 平面 tangent plane 

正切 传播 tangent prop 

花 勒 taylor 

导师 驱动 过 程 teacher forcing 

温度 temperature 

回 火 转移 tempered transition 

[=] +k tempering 

张 量 tensor 

测试 误差 test error 

测试 集 test set 

合 撞 情况 the collider case 


绑 定 的 权重 tied weights 


Tikhonov. Tikhonov regularization 
平 铺 郑 积 tiled convolution 

时 延 神 经 网 络 time delay neural network 
Ih} |] 27 time step 

Toeplitz% Toeplitz matrix 

标记 token 

4 Za tolerance 

地 质 ICA topographic ICA 

Vil Zk ix Æ training error 
训练 集 training set 

转录 transcribe 

转录 系统 transcription system 

迁移 学 习 transfer learning 

转移 transition 

转 置 transpose 

三 角 不 等 式 triangle inequality 

二 角形 化 triangulate 

三 角形 化 图 triangulated graph 

三 元 语法 trigram 


无 偏 unbiased 


Tc tint A Z2unbiased sample variance 
R 5¢, frundercomplete 

R 3E HJunderdetermined 

欠 估 计 underestimation 

RAAF underfitting 

灾 拟 合 机 制 underfitting regime 
F Ytunderflow 

HE underlying 

洲 在 成 因 underlying cause 
无 向 undirected 

无 问 模 型 ndirected model 
展开 图 unfolded graph 

展开 unfolding 

均匀 分 布 uniform distribution 
一 元 语法 unigram 

单 峰 值 unimodal 

单元 unit 

单位 苑 数 unit norm 

单位 回 量 unit vector 


万 能 近似 定理 universal approximation theorem 


万 能 近似 器 universal approximator 
国 数 近似 需 universal function approximator 
未 标注 unlabeled 
AVA — (OME ek BOunnormalized probability func-tion 
JER = 4 FX unshared convolution 
Tc H unsupervised 
无 监督 学 习 unsupervised learning 
无 监督 学 习 算 法 unsupervised learning algorithm 
无 监督 预 训练 unsupervised pretraining 
有 效 valid 
验证 集 validation set 
梯度 消失 与 爆炸 问题 vanishing and exploding gra-dient problem 
梯度 消失 vanishing gradient 
Vapnik-Chervonenkis#é = Vapnik-Chervonenkis dimension 
变量 消去 variable elimination 
方差 variance 
JI #07) variance reduction 


ASA) Fy mi 4 variational auto-encoder 


ZN 


G 


分 导数 variational derivative 


eK 


4} | FA Re variational free energy 


Ay 4) FE Wrvariational inference 

器 量 Vector 

虚拟 对 抗 样本 virtual adversarial example 

虚拟 对 抗 训练 virtual adversarial training 

HY Jl visible layer 

V- 结 构 V-structure 

醒 眠 wake sleep 

warp warp 

支持 问 量 机 support vector machine 

无 同 图 模型 undirected graphical model 

权重 weight 

权重 衰减 weight decay 

权重 比例 推 新 规则 weight scaling inference rule 
权重 空间 对 称 性 weight space symmetry 

条 件 概 率 分 布 conditional probability distribution 
日 化 whitening 

宽度 width 

mA JE AZ winner-take-all 

正切 传播 tangent propagation 


流 形 正切 分 类 器 manifold tangent classifier 


ta] # word embedding 
w] SC yÑ Eword-sense disambiguation 
零 数 据 学 习 zero-data learning 


零 次 学 习 zero-shot learning 
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